Dans

Dehors

Chat

désactiver

Universel

Universal est conçu pour une intégration transparente dans divers flux de travail de conversion de la parole en texte, permettant une transcription précise et efficace dans plusieurs langues et conditions audio.

Jetons gratuits de 1 $ pour les nouveaux membres

Text to Speech

Javascript

Python

                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: 'aai/universal',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();

                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "aai/universal",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()

Docs

Plus de 300 modèles d'IA pour OpenClaw et agents IA

Économisez 20 % sur les coûts et recevez des jetons gratuits d'une valeur de 1 $.

Obtenir la clé API Explorer les modèles

Universel

Détails du produit

La série Universal d'AssemblyAI représente le summum de Synthèse vocale (STT) Cette technologie est conçue pour transformer le langage parlé en un texte extrêmement précis et intelligible. Ces modèles avancés sont méticuleusement entraînés sur plus de 12,5 millions d'heures de données audio multilingues diversesCe qui leur permet d'exceller dans des contextes conversationnels complexes et réalistes. Ils gèrent avec brio plusieurs interlocuteurs, des accents variés et des environnements bruyants, et ce, avec une fidélité exceptionnelle.

⚙ Spécifications techniques

✓ Architecture : Universal-1 exploite un Encodeur conforme associé à un transducteur de réseau neuronal récurrent (RNN-T) modèle optimisé pour la vitesse et la précision.
✓ Détails de l'encodeur : Il comporte des couches convolutionnelles pour le sous-échantillonnage 4x, l'encodage positionnel et 24 couches Conformer, pour un total d'environ 600 millions de paramètresChaque bloc Conformer utilise une attention par blocs sur des segments audio de 8 secondes pour un traitement plus rapide et une robustesse face aux variations de longueur audio.
✓ Décodeur : Comprend un prédicteur LSTM à deux couches avec un module de jonction, utilisant un tokenizer WordPiece formé sur de vastes corpus multilingues.
✓ Traitement parallèle : Conçu pour le calcul d'encodeur hautement parallélisé, permettant inférence à grande échelle et à faible latence, idéal pour les applications en temps réel.
✓ Horodatage : Assure un alignement temporel précis pour une exactitude Estimation de l'horodatage au niveau du mot.

📈 Indicateurs de performance

✓ WER de pointe : Réalise des performances de pointe dans le secteur Taux d'erreur lexicale (WER) en anglais, surpassant de nombreux fournisseurs commerciaux de reconnaissance automatique de la parole et des modèles open source, notamment Whisper Large-v3 d'OpenAI et Canary-1B de NVIDIA.
✓ Robustesse accrue : Démontre une robustesse supérieure face au bruit et d'excellentes performances en téléphonie et dans d'autres environnements acoustiques difficiles.
✓ Compétence multilingue : Démontre un WER compétitif sur l'ensemble de la gamme Espagnol, français et allemand des ensembles de données présentant de solides capacités interlinguistiques.
✓ Amélioration qualitative : Les évaluations humaines révèlent un 60 % de préférence pour les transcriptions Universal-1 par rapport à la génération précédente Conformer-2, soulignant des améliorations qualitatives significatives de la transcription.

💰 Tarification de l'API

0,004725 $ par minute

📣 Caractéristiques et capacités principales

✓ Transcription de haute précision : Fournit des transcriptions précises, complètes avec ponctuation, majuscules et mise en forme avancée du texte.
✓ Diarisation des intervenants : Identifie et différencie intelligemment intervenants individuels dans l'audio.
✓ Reconnaissance avancée des entités : Reconnaît et transcrit avec précision noms propres et contenu alphanumérique (par exemple, numéros de téléphone, adresses e-mail).
✓ Traitement en temps réel : Offres transcription en temps réel à faible latence avec une évolutivité et une efficacité exceptionnelles.
✓ Personnalisation et réglage précis : Offre des options flexibles pour réglage fin et personnalisation pour s'adapter à divers cas d'utilisation en entreprise.
✓ IA éthique : Intègre des stratégies rigoureuses pour Atténuation des biais, sécurité du contenu et réduction des hallucinations.

💻 Exemple de code

🔗 Comparaison avec d'autres modèles

► Universel vs GPT-5

Alors que GPT-5 dispose d'une fenêtre de contexte énorme de 400 000 jetons. Grâce à son raisonnement hiérarchique avancé, idéal pour la compréhension et la génération de langage à grande échelle, il est moins adapté au traitement STT en temps réel que Universal. Universal est conçu spécifiquement pour la transcription vocale de haute précision.

► Universel vs GPT-4.1

GPT-4.1 est spécialisé dans les tâches de codage et la manipulation de code structuré dans une fenêtre de contexte réduite. Bien qu'optimisé pour les scénarios destinés aux développeurs, il ne propose pas les fonctionnalités étendues de reconnaissance vocale et d'intégration multimodale qui sont au cœur d'AssemblyAI Universal.

► Universal vs OpenAI o3

OpenAI o3 prend principalement en charge les tâches d'agents héritées Doté d'une compréhension d'image basique, il présente une latence plus élevée et un raisonnement multimodal moins précis que AssemblyAI Universal, ce qui le rend moins performant pour les applications modernes de transcription en temps réel et les applications multimodales.

📜 Foire aux questions

1. Qu'est-ce qui distingue AssemblyAI Universal dans la technologie de conversion de la parole en texte ?

AssemblyAI Universal excelle grâce à son entraînement sur plus de 12,5 millions d'heures de données audio multilingues, ce qui lui permet de gérer avec une grande précision des scénarios complexes du monde réel, notamment plusieurs locuteurs, des accents divers et un bruit de fond important.

2. Quels sont les principaux composants techniques d'Universal-1 ?

Universal-1 utilise un Encodeur conforme avec 24 couches et environ 600 millions de paramètres, combiné avec un Modèle RNN-TIl intègre une attention par blocs pour un traitement plus rapide et un décodeur LSTM à deux couches avec un tokenizer WordPiece.

3. Comment Universal se compare-t-il aux autres modèles ASR leaders du marché ?

Universal réalise Taux d'erreur de mots (WER) de pointe en anglaisCe modèle surpasse des modèles comme Whisper Large-v3 d'OpenAI et Canary-1B de NVIDIA. Il affiche également un WER compétitif en espagnol, en français et en allemand, démontrant ainsi une grande robustesse interlingue.

4. Quelles sont les capacités uniques offertes par AssemblyAI Universal ?

Au-delà d'une transcription de haute précision, il offre diarisation du locuteur, reconnaissance précise de noms propres et contenu alphanumérique, transcription en temps réel à faible latenceet flexible options de personnalisation pour une utilisation en entreprise.

5. Universal est-il adapté aux applications en temps réel ?

Oui, l'architecture d'Universal est spécifiquement conçue pour calcul hautement parallélisé et permet inférence à grande échelle et à faible latencece qui le rend parfaitement adapté à la transcription en temps réel et aux applications nécessitant un traitement immédiat.

Terrain de jeu de l'IA

Testez tous les modèles d'API dans l'environnement de test avant de les intégrer. Nous proposons plus de 300 modèles à intégrer à votre application.

Essai gratuit

Plus de 300 modèles d'IA pour
OpenClaw et agents IA

Économisez 20 % sur vos coûts

Jetons gratuits de 1 $ pour les nouveaux membres