Aus

Chat

deaktivieren

Aura 2

Mit hoher Parallelitätsunterstützung und kosteneffizienter Preisgestaltung ermöglicht Aura 2 nahtlose, klare und reaktionsschnelle KI-Sprachinteraktionen für Branchen wie Finanzen, Gesundheitswesen und Kundensupport.

Gratis-Tokens im Wert von 1 $ für neue Mitglieder

Text to Speech

Javascript

Python

                                        const fs = require('fs');
const path = require('path');

const axios = require('axios').default;
const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post(
    '/tts',
    {
      model: '#g1_aura-2-amalthea-en',
      text: 'Hi! What are you doing today?',
    },
    { responseType: 'stream' },
  );

  const dist = path.resolve(__dirname, './audio.wav');
  const writeStream = fs.createWriteStream(dist);

  response.data.pipe(writeStream);

  writeStream.on('close', () => console.log('Audio saved to:', dist));
};

main();

                                        import os
import requests


def main():
    url = "https://api.ai.cc/v1/tts"
    headers = {
        "Authorization": "Bearer ",
    }
    payload = {
        "model": "#g1_aura-2-amalthea-en",
        "text": "Hi! What are you doing today?",
    }

    response = requests.post(url, headers=headers, json=payload, stream=True)
    dist = os.path.join(os.path.dirname(__file__), "audio.wav")

    with open(dist, "wb") as write_stream:
        for chunk in response.iter_content(chunk_size=8192):
            if chunk:
                write_stream.write(chunk)

    print("Audio saved to:", dist)


main()

Docs

Über 300 KI-Modelle für OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten und erhalten Sie 1 $ gratis!

API-Schlüssel abrufen Modelle entdecken

Aura 2

Produktdetails

🌟 Aura-2 von Deepgram: Exzellente Text-to-Speech-Lösung für Unternehmen

Deepgrams Aura-2 ist ein hochmodernes Text-zu-Sprache (TTS)-Lösung Speziell für Unternehmensanwendungen entwickelt. Es bietet Live- und natürliche Sprachsynthese mit beispielloser Klarheit und präziser domänenspezifischer Aussprache.

Aura-2 wurde für Flexibilität konzipiert und bietet vielseitige Bereitstellungsoptionen, darunter Cloud- und On-Premise-Umgebungen. So wird eine sofortige, kontextsensitive Sprachausgabe für kritische Anwendungen wie Sprachagenten, interaktive Sprachdialogsysteme (IVR) und fortschrittliche KI-Konversationen gewährleistet.

⚙️ Technische Spezifikationen

⚡ Latenz: Konsistent
💻 Inferenztechnologie: GPU-beschleunigte Streaming-First-Architektur mit Quantisierung und Pruning für höhere Effizienz.
📈 Skalierbarkeit: Stateless verteilte Laufzeitumgebungen ermöglichen eine schnelle, engpassfreie Skalierung.
🔒 Sicherheit: Entwickelt mit Blick auf den Einsatz im Unternehmensumfeld und die Einhaltung der Datenlokalitätsrichtlinien.

📊 Leistungsbenchmarks

✓ Erreicht TTFB-Latenz unter 200 ms für einen extrem reaktionsschnellen Gesprächsfluss.
✓ Echtzeitfaktor (RTF) von 0,111x, wodurch in etwa 100 Millisekunden 1 Sekunde Audio erzeugt wird.
✓ Unterstützt Tausende von gleichzeitigen Sitzungen mit konstant niedrige Latenz und qualitativ hochwertige Ergebnisse.
✓ Gewährleistet minimale Varianz und niedrige maximale Latenz auch bei hoher Parallelität, was für virtuelle Echtzeitagenten entscheidend ist.
✓ Übertrifft viele Konkurrenten indem die Gesprächsschwelle von 200 ms konsequent unterschritten wird.
✓ Entworfen mit GPU-beschleunigt und eine optimierte, auf Streaming ausgerichtete Enterprise Runtime für schnelle Inferenz.
✓ Flexible Bereitstellung in der Cloud, VPC oder On-Premises zur Reduzierung von Roundtrip-Verzögerungen und zur Erfüllung von Compliance-Anforderungen.
✓ Die zustandslose, verteilte Laufzeitarchitektur ermöglicht schnelle Skalierung und effiziente Lastverteilung.

Aura-2 übertrifft Konkurrenten wie ElevenLabs und die TTS-Lösungen von OpenAI in latenzkritischen Unternehmensumgebungen durchweg.

💲 API-Preise

💰 0,0315 $/1000 Zeichen

✨ Hauptmerkmale von Aura-2

☀ Echtzeitleistung: Eine TTFB-Latenz von unter 200 ms gewährleistet natürliche, flüssige Gespräche.
⏰ Schnelle Audiogenerierung: RTF von 0,111x, Synthese von 1 Sekunde Audio in etwas über 100 ms.
🔍 Domänenspezifische Genauigkeit: Hervorragende Aussprache für Währungen, Daten, Fachbegriffe und mehr.
💻 Skalierbarkeit für Unternehmen: Unterstützt Tausende gleichzeitiger Sitzungen ohne Latenzeinbußen.
📧 Flexibilität beim Einsatz: Verfügbar über REST- und WebSocket-APIs; einsetzbar in privaten Clouds, VPCs oder lokal.
🎤 Breites Sprachkatalog: Mehr als 40 professionelle Stimmen, abgestimmt auf verschiedene Kontexte und Tonlagen.
🌐 Zukunftssicherung für Mehrsprachigkeit: Vorwiegend Englisch, mit geplanter Unterstützung für mehrere Sprachen.

🗣️ Modellvarianten im Überblick: Englische Sprachausgabe

Deepgram Aura-2 bietet einen umfangreichen Katalog an Stimmen, die jeweils für spezifische Unternehmensanwendungen und Stimmmerkmale optimiert sind:

aura-2-amalthea-en: Freundliche, zugängliche Frauenstimme für den Kundenservice.
aura-2-andromeda-one: Klare, autoritäre Männerstimme, geeignet für den Finanzbereich.
aura-2-apollo-en: Dynamische, jugendliche Männerstimme für Marketing und Einzelhandel.
aura-2-arcas-en: Ruhige, neutrale Männerstimme, ideal für die Kommunikation im Gesundheitswesen.
aura-2-aries-one: Kräftige, selbstbewusste Männerstimme für technischen Support.
aura-2-asteria-en: Sanfte, fürsorgliche Frauenstimme für den Bildungs- und Ausbildungsbereich.
aura-2-athena-one: Professionelle, eloquente weibliche Stimme für den Rechts- und Unternehmensbereich.
aura-2-atlas-en: Tiefe, ruhige Männerstimme, wie geschaffen für Logistik und Transport.
aura-2-aurora-en: Helle, klare Frauenstimme für Medien und Rundfunk.
aura-2-callista-en: Freundliche, einnehmende weibliche Stimme für die Kundenansprache.
aura-2-cora-en: Eine warme und freundliche Frauenstimme, perfekt für Kundenansprache und informative Inhalte.
aura-2-cordelia-en: Klare und professionelle Frauenstimme, ideal für Firmenschulungen und Supportanrufe.
aura-2-delia-en: Ruhige, einfühlsame Frauenstimme, entwickelt für Anwendungen im Gesundheits- und Wellnessbereich.
aura-2-draco-en: Durchsetzungsstarke Männerstimme, gut geeignet für technischen Support und Finanzdienstleistungen.
aura-2-electra-en: Energetische und dynamische Frauenstimme für Marketing- und Verkaufsförderungsmaßnahmen.
aura-2-harmonia-en: Ausgewogene weibliche Stimme, die Klarheit und einen beruhigenden Ton für Sprachassistenten bietet.
aura-2-helena-one: Klare, distanzierte Frauenstimme mit seriösem Tonfall, geeignet für den Rechts- und Wirtschaftsbereich.
aura-2-here-one: Selbstbewusste Frauenstimme, ideal für Bildungs- und Schulungsmodule.
aura-2-hermes-en: Klare und autoritäre Männerstimme, geeignet für die Kommunikation und Durchsagen von Führungskräften.
aura-2-hyperion-en: Tiefe, ruhige Männerstimme, speziell entwickelt für Anwendungsfälle in den Bereichen Logistik, Transport und Industrie.
aura-2-iris-en: Eine sympathische und einnehmende weibliche Stimme für Medien- und Rundfunkkontexte.
aura-2-janus-one: Vielseitige Männerstimme, geeignet für diverse Unternehmensanwendungen.
aura-2-juno-en: Freundliche, zugängliche weibliche Stimme für Kundenservice- und Supportkanäle.
aura-2-jupiter-one: Kraftvolle, selbstbewusste Männerstimme, maßgeschneidert für Finanz- und Beratungsdienstleistungen.
aura-2-luna-one: Eine sanfte und angenehme Frauenstimme wird im Gesundheitswesen und im persönlichen Coaching bevorzugt.
aura-2-mars-en: Kräftige und klare Männerstimme, geeignet für technische und operative Umgebungen.
aura-2-minerva-one: Intelligente, kultivierte Frauenstimme, effektiv für Schulungs- und Bildungszwecke.
aura-2-neptune-one: Ruhige Männerstimme, gut geeignet für Meditations- und Wellness-Apps.
aura-2-odysseus-en: Erzählstimme eines Mannes, geeignet für Geschichtenerzählen und geführte Touren.
aura-2-ophelia-en: Warme, weibliche Stimme mit einfühlsamer Intonation für den Dienstleistungssektor.
aura-2-orion-en: Markante Männerstimme für autoritäre Durchsagen und industrielle Kontexte.
aura-2-orpheus-one: Sanfte Männerstimme mit künstlerischem Klang, geeignet für Medien- und Kreativanwendungen.
aura-2-pandora-en: Eine ansprechende weibliche Stimme, speziell für Marketing und Promotion entwickelt.
aura-2-phoebe-one: Klare, professionelle Frauenstimme, ideal für E-Learning und Unternehmenskommunikation.
aura-2-pluto-one: Tiefe Männerstimme mit ruhigem Auftreten, perfekt für Erzählungen und Voice-Overs.
aura-2-saturn-one: Kräftige Männerstimme, ideal für Kundenservice und Finanzsektor.
aura-2-selene-one: Sanfte Frauenstimme, ideal für Wellness-, Achtsamkeits- und Körperpflege-Apps.
aura-2-thalia-en: Eine helle und dynamische Frauenstimme, ideal für Werbe- und Verkaufsinhalte.
aura-2-theia-en: Professionelle weibliche Stimme, geeignet für den Gesundheits- und Rechtsbereich.
aura-2-vesta-en: Klare weibliche Stimme mit gleichmäßigem Sprechtempo, geeignet für technische Berufe und Kundendienstpositionen.
aura-2-zeus-one: Eindrucksvolle, kraftvolle Männerstimme, perfekt für Durchsagen und Präsentationen von Führungskräften.

Jede Stimme ist mit ausgeprägten tonalen Qualitäten und einer auf den jeweiligen Unternehmenskontext abgestimmten Gestaltung versehen, sodass Unternehmen die perfekte Stimme für ihre Markenidentität und ihren Anwendungsfall auswählen können.

🌍 Spanische Sprachvarianten

aura-2-celeste-es: Klare und freundliche spanische Frauenstimme für eine breite Kundenansprache.
aura-2-star-es: Warme und ausdrucksstarke spanische Frauenstimme, ideal für Bildungs- und Medienzwecke.
aura-2-nestor-es: Durchsetzungsstarke spanische Männerstimme, geeignet für professionelle und geschäftliche Umgebungen.

🎯 Häufige Anwendungsfälle

👤 KI-Agenten für Konversationssprachsteuerung in Echtzeit
📞 Interaktive Sprachdialogsysteme (IVR)
💬 Automatisierung des Kundensupports
📢 Transaktionsbenachrichtigungen (Erinnerungen, Warnungen)
🔍 Domänenspezifische Sprachassistenten, die eine korrekte Aussprache erfordern
🏠 Lokale Bereitstellungen für sensible Datenumgebungen

🆚 Vergleich mit anderen Modellen

Deepgram Aura-2 vs. ElevenLabs Flash

Aura-2 zeichnet sich aus durch Echtzeit-Unternehmensnutzung Mit seiner konstant niedrigen Latenz von unter 200 ms und flexiblen Bereitstellungsmöglichkeiten (einschließlich On-Premises und VPC) bietet ElevenLabs Flash zwar eine sehr schnelle Generierung (Startzeit ca. 75 ms), unterliegt jedoch Planbeschränkungen und ist ausschließlich in der Cloud verfügbar. Aura-2 ist ebenfalls ungefähr 40 % kostengünstiger für groß angelegte Geschäftsabläufe.

Deepgram Aura-2 vs. OpenAI TTS

Aura-2 übertrifft OpenAIs TTS in LatenzleistungDie Lösung gewährleistet auch bei hoher Auslastung eine konstante Reaktionszeit von unter 200 ms, was für Live-Agenten und IVR-Systeme entscheidend ist. OpenAIs TTS priorisiert die Ausdrucksstärke der Stimme für Offline- oder Medienanwendungen und geht dafür mit einer gewissen Geschwindigkeitsreduzierung einher. Die Architektur von Aura-2 ist optimiert für… Durchsatz und Skalierbarkeit in anspruchsvollen Unternehmensumgebungen.

Deepgram Aura-2 vs. Cartesia Sonic

Aura-2 bietet günstigere Kosten pro Charakter und geringere Latenz Aura-2 bietet im Vergleich zu Cartesia Sonic eine höhere Latenz und unterstützt zudem verteilte und lokale Bereitstellungen. Cartesia Sonic ist primär cloudbasiert und weist eine höhere Latenz (~300 ms) auf, wodurch Aura-2 besser für Anwendungsfälle geeignet ist, die schnelle, natürliche Konversationen erfordern. Die spezialisierte Laufzeitumgebung von Aura-2 bietet geringerer Infrastrukturaufwand in großem MaßstabDie

❓ Häufig gestellte Fragen (FAQ)

F: Was macht Aura-2 im Vergleich zu anderen KI-Modellen einzigartig?

A: Aura-2 ist eine hochmoderne Text-to-Speech-Lösung, die speziell für Unternehmensanwendungen entwickelt wurde, die eine natürliche Sprachausgabe in Echtzeit erfordern. Ihre Einzigartigkeit liegt in der außergewöhnlichen Klarheit, der präzisen Aussprache im jeweiligen Fachgebiet, den flexiblen Bereitstellungsoptionen (Cloud oder On-Premise) und der konstant niedrigen Latenz von unter 200 ms, selbst bei hoher Auslastung.

F: Welche spezifischen Funktionen bietet Aura-2 für die Echtzeit-Sprachsynthese?

A: Aura-2 bietet eine Latenz bis zum ersten Byte (TTFB) von unter 200 ms und erreicht einen Echtzeitfaktor (RTF) von 0,111x. Das bedeutet, dass eine Sekunde Audio in nur etwas über 100 Millisekunden generiert wird. Dies gewährleistet einen extrem reaktionsschnellen und natürlichen Gesprächsfluss, der für Live-Sprachagenten und IVR-Systeme unerlässlich ist.

F: Wie geht Aura-2 mit domänenspezifischen Aussprachen um?

A: Aura-2 wurde mit überlegener Aussprachegenauigkeit für komplexe Begriffe wie Währungen, Datumsangaben, Fachjargon, URLs und Adressen entwickelt und ist daher ideal für spezialisierte Unternehmensanwendungen, bei denen Präzision von größter Bedeutung ist.

F: Welche Bereitstellungsoptionen gibt es für Deepgram Aura-2?

A: Aura-2 bietet umfassende Flexibilität bei der Bereitstellung. Der Zugriff erfolgt über REST- und WebSocket-APIs, und die Bereitstellung ist in öffentlichen Clouds, privaten Virtual Private Clouds (VPCs) oder vollständig lokal möglich, um spezifische Sicherheits-, Compliance- und Latenzanforderungen zu erfüllen.

F: Wie schneidet Aura-2 im Hinblick auf die Kosteneffizienz bei großflächiger Anwendung ab?

A: Für umfangreiche Geschäftsanwendungen ist Aura-2 besonders kosteneffizient. Beispielsweise ist es pro Zeichen rund 40 % günstiger als einige Konkurrenzprodukte wie ElevenLabs Flash und bietet gleichzeitig eine überlegene Latenz und Bereitstellungsflexibilität, die für Unternehmensanforderungen entscheidend sind.

KI-Spielplatz

Testen Sie alle API-Modelle in der Sandbox-Umgebung, bevor Sie sie integrieren. Wir bieten über 300 Modelle zur Integration in Ihre App an.

Kostenlos testen

Mehr als 300 KI-Modelle für
OpenClaw & KI-Agenten

Sparen Sie 20 % der Kosten