



const fs = require('fs');
const path = require('path');
const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post(
'/tts',
{
model: '#g1_aura-2-amalthea-en',
text: 'Hi! What are you doing today?',
},
{ responseType: 'stream' },
);
const dist = path.resolve(__dirname, './audio.wav');
const writeStream = fs.createWriteStream(dist);
response.data.pipe(writeStream);
writeStream.on('close', () => console.log('Audio saved to:', dist));
};
main();
import os
import requests
def main():
url = "https://api.ai.cc/v1/tts"
headers = {
"Authorization": "Bearer ",
}
payload = {
"model": "#g1_aura-2-amalthea-en",
"text": "Hi! What are you doing today?",
}
response = requests.post(url, headers=headers, json=payload, stream=True)
dist = os.path.join(os.path.dirname(__file__), "audio.wav")
with open(dist, "wb") as write_stream:
for chunk in response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
main()

Détails du produit
🌟 Aura-2 par Deepgram : L’excellence en matière de synthèse vocale pour entreprises
Deepgram Aura-2 est à la pointe de la technologie solution de synthèse vocale (TTS) Conçu spécifiquement pour les applications d'entreprise. Il offre synthèse vocale en direct et naturelle avec une clarté inégalée et des prononciations précises et spécifiques au domaine.
Conçu pour offrir une grande flexibilité, Aura-2 propose des options de déploiement polyvalentes, notamment dans le cloud et sur site, garantissant une création vocale instantanée et contextuelle pour des applications critiques telles que les agents vocaux, les systèmes de réponse vocale interactive (RVI) et les conversations d'IA avancées.
⚙️ Spécifications techniques
- ⚡ Latence : Cohérent
- 💻 Technologie d'inférence : Architecture de flux accélérée par GPU avec quantification et élagage pour plus d'efficacité.
- 📈 Évolutivité : L'environnement d'exécution distribué sans état permet une mise à l'échelle rapide et sans goulot d'étranglement.
- 🔒 Sécurité : Conçu pour un déploiement de niveau entreprise et une conformité aux exigences de localisation des données.
📊 Indicateurs de performance
- ✓ Réalise Latence TTFB inférieure à 200 ms pour une fluidité conversationnelle ultra-réactive.
- ✓ Facteur temps réel (RTF) de 0,111x, générant 1 seconde d'audio en ~100 millisecondes.
- ✓ Prend en charge des milliers de sessions simultanées avec latence faible et constante et une production de haute qualité.
- ✓ Maintient une variance minimale et une faible latence maximale même en cas de forte concurrence, ce qui est essentiel pour les agents virtuels en temps réel.
- ✓ Surpasse de nombreux concurrents en restant constamment en dessous du seuil conversationnel de 200 ms.
- ✓ Conçu avec Accélération par GPU et un environnement d'exécution d'entreprise optimisé pour le streaming afin d'obtenir une inférence rapide.
- ✓ Déploiement flexible sur le cloud, VPC ou sur site pour réduire les délais d'aller-retour et répondre aux exigences de conformité.
- ✓ L'architecture d'exécution distribuée sans état permet mise à l'échelle rapide et un équilibrage de charge efficace.

💲 Tarification de l'API
💰 0,0315 $/1 000 caractères
✨ Principales caractéristiques d'Aura-2
- ☀ Performances en temps réel : Une latence TTFB inférieure à 200 ms garantit des conversations naturelles et fluides.
- ⏰ Génération audio rapide : RTF de 0,111x, synthétisant 1 seconde d'audio en un peu plus de 100 ms.
- 🔍 Précision spécifique au domaine : Prononciation supérieure pour les devises, les dates, les termes techniques, et plus encore.
- 💻 Évolutivité en entreprise : Prend en charge des milliers de sessions simultanées sans dégradation de la latence.
- 📧 Flexibilité du déploiement : Disponible via les API REST et WebSocket ; déployable sur des clouds privés, des VPC ou sur site.
- 🎤 Catalogue Broad Voice : Plus de 40 voix professionnelles adaptées à divers contextes et tonalités.
- 🌐 Pérenniser le multilinguisme : Principalement en anglais, avec une prise en charge multilingue prévue.
🗣️ Aperçu des variantes du modèle : Voix anglaises
Deepgram Aura-2 offre un riche catalogue de voix, chacune optimisée pour des usages et des caractéristiques vocales spécifiques en entreprise :
- aura-2-amalthea-en: Une voix féminine chaleureuse et accessible pour le service client.
- aura-2-andromède-un : Voix masculine claire et autoritaire, parfaitement adaptée au secteur financier.
- aura-2-apollo-en: Voix masculine dynamique et jeune pour le marketing et la vente au détail.
- aura-2-arcas-en: Voix masculine calme et neutre, idéale pour les communications dans le secteur de la santé.
- aura-2-bélier-un : Voix masculine forte et assurée pour le support technique.
- aura-2-asteria-en: Voix féminine douce et bienveillante, axée sur l'éducation et la formation.
- aura-2-athena-one : Voix féminine professionnelle et éloquente pour les secteurs juridique et des entreprises.
- aura-2-atlas-en: Voix masculine grave et assurée, idéale pour la logistique et le transport.
- aura-2-aurora-en: Une voix féminine claire et lumineuse pour les médias et la radiodiffusion.
- aura-2-callista-en: Une voix féminine chaleureuse et engageante pour favoriser l'engagement client.
- aura-2-cora-en: Une voix féminine chaleureuse et avenante, idéale pour interagir avec les clients et créer du contenu éducatif.
- aura-2-cordelia-en: Voix féminine claire et professionnelle, idéale pour les formations en entreprise et les appels d'assistance.
- aura-2-delia-en: Voix féminine calme et empathique conçue pour les applications de santé et de bien-être.
- aura-2-draco-en: Voix masculine affirmée, parfaitement adaptée au support technique et aux services financiers.
- aura-2-electra-en: Voix féminine énergique et dynamique pour le marketing et les promotions de vente au détail.
- aura-2-harmonia-en: Voix féminine équilibrée offrant clarté et une tonalité apaisante pour les assistants vocaux.
- aura-2-helena-one : Voix féminine articulée, au ton professionnel, convenant aux secteurs juridique et commercial.
- aura-2-ici-un : Une voix féminine assurée, idéale pour les modules d'éducation et de formation.
- aura-2-hermes-en: Voix masculine claire et autoritaire, idéale pour les communications et annonces de la direction.
- aura-2-hyperion-en: Voix masculine grave et assurée, conçue pour les secteurs de la logistique, du transport et de l'industrie.
- aura-2-iris-en: Une voix féminine brillante et captivante pour les médias et la radiodiffusion.
- aura-2-janus-un : Voix masculine polyvalente adaptée aux applications d'entreprise multifonctionnelles.
- aura-2-juno-en: Une voix féminine, aimable et accessible, pour les canaux de service client et d'assistance.
- aura-2-jupiter-un : Une voix masculine puissante et assurée, parfaitement adaptée aux services financiers et de conseil.
- aura-2-luna-one : Une voix féminine douce et posée est privilégiée dans le domaine de la santé et du coaching personnel.
- aura-2-mars-en: Voix masculine forte et claire, conçue pour les environnements techniques et opérationnels.
- aura-2-minerva-un : Voix féminine intelligente et soignée, idéale pour la formation et l'enseignement.
- aura-2-neptune-un : Voix masculine calme, parfaitement adaptée aux applications de méditation et de bien-être.
- aura-2-odysseus-en: Voix masculine narrative conçue pour la narration et les visites guidées.
- aura-2-ophelia-en: Voix féminine chaleureuse à l'intonation empathique, idéale pour le secteur des services.
- aura-2-orion-en: Voix masculine affirmée pour les annonces officielles et les contextes industriels.
- aura-2-orphée-un : Voix masculine douce au timbre artistique, adaptée aux applications médiatiques et créatives.
- aura-2-pandora-en: Une voix féminine engageante, conçue pour le marketing et la promotion.
- aura-2-phoebe-one : Voix féminine claire et professionnelle, idéale pour l'apprentissage en ligne et la communication d'entreprise.
- aura-2-pluto-un : Voix masculine grave et calme, idéale pour la narration et les voix off.
- aura-2-saturn-one : Une voix masculine forte, parfaitement adaptée au service client et au secteur financier.
- aura-2-séléne-un : Une voix féminine douce, idéale pour les applications de bien-être, de pleine conscience et de soins personnels.
- aura-2-thalia-en: Voix féminine brillante et dynamique, idéale pour les contenus promotionnels et de vente au détail.
- aura-2-theia-en: Voix féminine professionnelle adaptée aux secteurs de la santé et du droit.
- aura-2-vesta-en: Voix féminine claire et au débit régulier, conçue pour les rôles techniques et de service à la clientèle.
- aura-2-zeus-un : Voix masculine autoritaire et puissante, idéale pour les annonces et présentations de direction.
Chaque voix est conçue avec des qualités tonales distinctes et une adéquation au contexte de l'entreprise, permettant ainsi aux entreprises de choisir la voix parfaite pour leur identité de marque et leur cas d'utilisation.
🌍 Variantes vocales espagnoles
- aura-2-céleste-es: Voix féminine espagnole claire et avenante pour une large interaction avec la clientèle.
- aura-2-étoiles : Voix féminine espagnole chaleureuse et articulée, parfaitement adaptée à un usage éducatif et médiatique.
- aura-2-nestor-es: Voix masculine espagnole affirmée, conçue pour les environnements professionnels et d'entreprise.
🎯 Cas d'utilisation courants
- 👤 Agents d'IA vocale conversationnelle en temps réel
- 📞 Systèmes de réponse vocale interactive (RVI)
- 💬 Automatisation du support client
- 📢 Notifications transactionnelles (rappels, alertes)
- 🔍 Assistants vocaux spécialisés nécessitant une prononciation précise
- 🏠 Déploiements sur site pour les environnements de données sensibles
🆚 Comparaison avec d'autres modèles
Deepgram Aura-2 contre ElevenLabs Flash
Aura-2 excelle dans utilisation en temps réel en entreprise Avec sa latence constante inférieure à 200 ms et son déploiement flexible (sur site et VPC inclus), ElevenLabs Flash offre une génération très rapide (démarrage en ~75 ms), mais avec des restrictions d'abonnement et une disponibilité exclusive dans le cloud. Aura-2 présente également des performances similaires. 40 % plus rentable pour les opérations commerciales à grande échelle.
Comparaison entre Deepgram Aura-2 et OpenAI TTS
Aura-2 surpasse le système de synthèse vocale d'OpenAI dans performances de latence, maintenant un temps de réponse constant inférieur à 200 ms même en cas de forte concurrence, ce qui est crucial pour les agents en direct et les SVI. La synthèse vocale d'OpenAI privilégie l'expressivité vocale pour les applications hors ligne ou multimédias, au détriment de la vitesse en temps réel. L'architecture d'Aura-2 est optimisée pour débit et évolutivité dans des environnements d'entreprise exigeants.
Deepgram Aura-2 contre Cartesia Sonic
Aura-2 propose un coût par personnage plus abordable et latence plus faible Aura-2 offre une meilleure expérience utilisateur que Cartesia Sonic, tout en prenant en charge les déploiements distribués et sur site. Cartesia Sonic étant principalement basé sur le cloud et présentant une latence plus élevée (environ 300 ms), Aura-2 est mieux adapté aux cas d'utilisation nécessitant des conversations rapides et naturelles. L'environnement d'exécution spécialisé d'Aura-2 offre réduire les frais d'infrastructure à grande échelle.
❓ Foire aux questions (FAQ)
Q : Qu’est-ce qui rend Aura-2 unique dans le paysage des modèles d’IA ?
A: Aura-2 est une solution de synthèse vocale de pointe conçue pour les applications d'entreprise exigeant une synthèse vocale naturelle et en temps réel. Sa singularité réside dans sa clarté exceptionnelle, la précision de sa prononciation, ses options de déploiement flexibles (cloud ou sur site) et une latence inférieure à 200 ms, même en cas de forte concurrence.
Q : Quelles sont les fonctionnalités spécifiques offertes par Aura-2 pour la synthèse vocale en temps réel ?
A: Aura-2 offre une latence TTFB (Time-To-First-Byte) inférieure à 200 ms et un facteur de temps réel (RTF) de 0,111x, ce qui signifie qu'elle génère une seconde d'audio en un peu plus de 100 millisecondes. Ceci garantit une fluidité conversationnelle ultra-réactive et naturelle, essentielle pour les agents vocaux en direct et les systèmes IVR.
Q : Comment Aura-2 gère-t-il les prononciations spécifiques à un domaine ?
A: Aura-2 est conçu avec une précision de prononciation supérieure pour les termes complexes, notamment les devises, les dates, le jargon technique, les URL et les adresses, ce qui le rend idéal pour les applications d'entreprise spécialisées où la précision est primordiale.
Q : Quelles sont les options de déploiement pour Deepgram Aura-2 ?
A: Aura-2 offre une grande flexibilité de déploiement. Accessible via les API REST et WebSocket, il peut être déployé sur des clouds publics, des clouds privés virtuels (VPC) ou entièrement sur site afin de répondre à des exigences spécifiques en matière de sécurité, de conformité et de latence.
Q : Comment Aura-2 se compare-t-il en termes de rapport coût-efficacité pour une utilisation à grande échelle ?
A: Pour les applications d'entreprise à grande échelle, Aura-2 est particulièrement rentable. Par exemple, son coût par caractère est environ 40 % inférieur à celui de certains concurrents comme ElevenLabs Flash, tout en offrant une latence et une flexibilité de déploiement supérieures, essentielles pour les besoins des entreprises.
Terrain de jeu de l'IA



Se connecter