



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: 'aai/slam-1',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "aai/slam-1",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()

Détails du produit
Coup de poing-1 se présente comme une avancée majeure d'AssemblyAI Modèle de langage de la parole (SLM), conçu de manière unique pour unifier architecture de modèle de langage à grande échelle avec des fonctions avancées encodeurs de reconnaissance vocale automatique (ASR)Cette puissante combinaison offre des performances supérieures précision de la transcription vocale en texteConçu spécifiquement pour les tâches vocales, Slam-1 offre une compréhension approfondie du contexte et de la sémantique, permettant transcription rapide et hautement personnalisableIl s'adapte intelligemment à la terminologie spécialisée du secteur et aux contenus oraux complexes, ce qui en fait une solution idéale pour les cas d'utilisation critiques. domaines de la santé, du droit, des ventes et de la technologie qui nécessitent des transcriptions précises et contextuelles.
Spécifications techniques
Indicateurs de performance
✅ Réduit les taux d'entités non identifiées jusqu'à 66%, notamment pour les noms, les termes médicaux et techniques.
✅ Réduit les erreurs de formatage d'environ 20%.
✅ Préféré par plus de 72% des utilisateurs finaux lors de tests à l'aveugle comparant différents modèles.
✅ Permet d'obtenir une qualité de transcription plus fiable. contextes bruyants et spécialisés.
✅ Offre une protection efficace contre les hallucinations grâce à un architecture multimodale qui traite simultanément l'audio et le langage.
Décomposition architecturale
L'architecture du Slam-1 fusionne de manière distinctive un encodeur vocal avec un couche d'adaptation réglé avec précision pour lier les caractéristiques acoustiques à une valeur fixe modèle de langage étenduCela permet une compréhension sémantique approfondie. Cette conception multimodale surpasse les modèles audio-texte traditionnels en interprétant le contenu oral de manière holistique, ce qui permet de… transcription précise et raisonnement contextuelCette approche tire parti de ingénierie rapide pour personnaliser dynamiquement la précision de la transcription en fonction des vocabulaires et des schémas de parole spécifiques à chaque secteur.
Tarification de l'API
Commencez pour seulement 0,002625 $ par minute
Caractéristiques et capacités principales
✨ Intégration de la parole et du langage : Combine de manière transparente l'encodeur vocal et le LLM pour Flux de travail de transcription personnalisables et modulables.
⚙️ Réglages et personnalisation : Active adaptation spécifique au domaine grâce à des instructions simples, éliminant ainsi le besoin de formations complexes.
🎯 Haute précision : Offre une reconnaissance supérieure des termes rares et spécifiques à un domaine, amélioration significative des analyses en aval et réduction des efforts de vérification manuelle.
🗣️ Diarisation multicanal et des intervenants : Prend entièrement en charge les flux audio complexes avec séparation précise des haut-parleurs et horodatage fournis d'emblée.
🏢 Prêt pour l'entreprise : Spécialement conçu pour réduire les efforts de post-traitement et améliorer la qualité des transcriptions dans les secteurs à forts enjeux comme les soins de santé et le droit.
Exemple de code
Comparaison avec d'autres modèles
VS AssemblyAI Universel : Slam-1 se distingue par Transcription instantanée et hautement personnalisable offrant une reconnaissance d'entités supérieure pour les domaines spécialisésEn revanche, AssemblyAI Universal est optimisé pour une prise en charge linguistique plus étendue et une latence plus faible, répondant ainsi aux besoins généraux de transcription.
VS GPT-4.1 (utilisation de la transcription audio) : Le Slam-1 est conçu spécifiquement et hautement optimisé pour La transcription vocale, intégrant des fonctionnalités robustes de prise en charge multicanal et de diarisation du locuteur,GPT-4.1, en revanche, se concentre principalement sur les tâches générales de traitement automatique du langage naturel (TALN) et ne possède pas les capacités de traitement audio natives essentielles à une transcription complète.
Foire aux questions (FAQ)
Q : Qu’est-ce qui rend Slam-1 unique parmi les solutions de conversion vocale en texte ?
UN: Slam-1 se distingue par son architecture innovante qui intègre un encodeur vocal et un modèle de langage étendu (LLM). Cette intégration lui permet de comprendre le contexte et la sémantique en profondeur, offrant ainsi une précision nettement supérieure et une transcription personnalisable et réactive pour les contenus complexes et spécialisés, surpassant les systèmes de reconnaissance automatique de la parole (ASR) traditionnels.
Q : Comment Slam-1 garantit-il une précision élevée pour la terminologie spécialisée ?
UN: Slam-1 tire parti de son ingénierie rapide et de ses capacités LLM pour s'adapter dynamiquement aux vocabulaires spécifiques à chaque secteur. Les utilisateurs peuvent ainsi personnaliser le modèle pour reconnaître avec une précision supérieure les noms rares, les termes médicaux, le jargon juridique et les expressions techniques, sans nécessiter de réentraînement important, ce qui réduit considérablement le taux d'erreurs de reconnaissance.
Q : Quels secteurs tirent le plus grand profit des capacités de Slam-1 ?
UN: Les secteurs exigeant une transcription précise et contextuelle en tirent un immense avantage. C'est le cas notamment de la santé (pour les dictées médicales et les dossiers patients), du droit (pour les procédures judiciaires et les dépositions), des ventes (pour l'analyse des appels) et des domaines techniques (pour les discussions techniques détaillées et la documentation). La haute précision et les options de personnalisation de Slam-1 sont essentielles dans ces environnements critiques.
Q : Slam-1 prend-il en charge la transcription audio multi-locuteurs ?
UN: Oui, le Slam-1 intègre des fonctions multicanaux et de diarisation des intervenants. Il peut ainsi séparer avec précision les différents intervenants dans des flux audio complexes et horodater l'intervention de chacun, ce qui le rend idéal pour les réunions, les entretiens et autres enregistrements à plusieurs participants.
Q : Comment Slam-1 aborde-t-il le problème des « hallucinations » de transcription ?
UN: L'architecture multimodale de Slam-1 est conçue pour résister aux hallucinations. En traitant simultanément les données audio et linguistiques, elle peut recouper et valider les informations issues des caractéristiques acoustiques avec la compréhension sémantique, réduisant ainsi considérablement le risque de générer un contenu inexact ou falsifié dans ses transcriptions.
Terrain de jeu de l'IA



Se connecter