qwen-bg
max-ico04
Dans
Dehors
max-ico02
Chat
max-ico03
désactiver
Chuchoter
L'API Whisper d'OpenAI offre des capacités robustes et multilingues de conversion de la parole en texte, entraînées sur des données diverses, et est gratuite pour une utilisation commerciale sous la licence MIT.
Jetons gratuits de 1 $ pour les nouveaux membres
Text to Speech
                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_whisper-large',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();
                                
                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_whisper-large",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()
Docs

Une seule API pour plus de 300 modèles d'IA

Économisez 20 % sur les coûts et recevez des jetons gratuits d'une valeur de 1 $.
qwenmax-bg
image
Chuchoter

Détails du produit

Comprendre le modèle Whisper d'OpenAI : un aperçu complet

Le Modèle Whisper, développé par OpenAIWhisper représente une avancée majeure dans le domaine de la reconnaissance vocale automatique (ASR) et de la traduction vocale. Mis à la disposition du public pour encourager la recherche en intelligence artificielle, les modèles Whisper sont conçus pour être robustes, généralisables et capables d'identifier les biais potentiels des systèmes d'IA. Ils sont particulièrement performants pour la reconnaissance vocale en anglais, mais offrent également de solides capacités multilingues.

Remarque importante : L'utilisation des modèles Whisper pour la transcription d'enregistrements non consensuels ou dans des contextes de prise de décision à haut risque est fortement déconseillée en raison des inexactitudes potentielles et des préoccupations éthiques.

Informations de base et évolution

  • Nom du modèle : Chuchoter
  • Promoteur: OpenAI
  • Historique des versions : Série originale en septembre 2022, suivie de large-v2 en décembre 2022, et large-v3 en novembre 2023.
  • Type de modèle : Modèle de reconnaissance vocale automatique (ASR) séquence à séquence et de traduction vocale.

Aperçu des versions du modèle Whisper

Taille Paramètres Vitesse relative
minuscule 39 ans ~32x
base 74 M ~16x
petit 244 M ~6x
moyen 769 M ~2x
grand 1550 M 1x

Principales caractéristiques des modèles Whisper

  • ✓ Capacités multilingues : Excellentes performances dans une dizaine de langues, avec une évaluation en cours pour des applications plus larges comme la détection vocale et la classification des locuteurs.
  • ✓ Robustesse : Exceptionnellement résistant aux accents, dialectes et environnements audio bruyants.
  • ✓ Applications polyvalentes : Idéal pour la transcription vocale, la traduction linguistique et la génération automatique de sous-titres.

Cas d'utilisation prévus 🚀

Les modèles Whisper sont principalement destinés à développeurs et chercheursCe sont des outils précieux pour intégrer des fonctionnalités avancées de transcription vocale dans diverses applications, améliorer l'accessibilité et soutenir les initiatives de recherche linguistique.

Détails techniques ⚙️

Architecture:

Le modèle Whisper repose sur une technologie sophistiquée. Architecture TransformerCette architecture est pré-entraînée sur un vaste ensemble de données comprenant des données d'apprentissage supervisé et non supervisé, permettant un apprentissage robuste des caractéristiques.

Données d'entraînement :

L'entraînement a nécessité un volume considérable de 680 000 heures d'enregistrements audio provenant d'Internet et leurs transcriptions correspondantes. Cet ensemble de données a été méticuleusement équilibré :

  • ‣ 65% Audio en anglais avec transcriptions en anglais.
  • ‣ 18% Fichiers audio non anglais avec transcriptions en anglais.
  • ‣ 17% Fichiers audio non anglais avec transcriptions correspondantes non anglaises.

Au total, les données d'entraînement couvraient 98 langues différentes.

Indicateurs et considérations de performance :

Les recherches indiquent que les modèles Whisper surpassent généralement de nombreux systèmes de reconnaissance vocale existants, faisant preuve d'une robustesse accrue face aux accents, au bruit de fond et au langage technique spécialisé. Ils offrent une précision quasi optimale en matière de reconnaissance vocale et de traduction automatique (zéro exemple) de plusieurs langues vers l'anglais.

Cependant, les performances peuvent varier considérablement d'une langue à l'autre, notamment pour les langues disposant de peu de ressources ou moins étudiées. La précision peut également différer selon les accents, les dialectes et les groupes démographiques. Les modèles peuvent parfois générer des textes répétitifs, un problème souvent atténué par des techniques comme la recherche par faisceau et la planification de la température.

Seuil de connaissances :

Les données audio et textuelles utilisées pour l'entraînement des modèles Whisper n'incluent pas d'informations postérieures à mi-2022.

Utilisation et intégration 💻

  • Exemples de code/SDK : Les développeurs peuvent accéder aux fonctionnalités de Whisper via les SDK et les exemples de code disponibles pour l'intégration dans leurs applications.
  • Tutoriels : Explorez des guides tels que Expérience multimodale de conversion vocale en texte avec NodeJS pour des conseils pratiques en matière de mise en œuvre.
  • Taille maximale du fichier : La limite actuelle pour le traitement des fichiers audio est de 2 Go.

Soutien et communauté 💬

Considérations éthiques et licences ⚖️

  • ⚠ Principes éthiques : OpenAI fournit des directives complètes sur l'utilisation responsable, en soulignant l'importance du respect de la vie privée et du déploiement éthique des technologies d'IA.
  • ⚠ Atténuation des biais : Des efforts continus sont déployés pour réduire les biais dans la précision de la reconnaissance vocale selon les langues, les accents et les groupes démographiques.
  • ⓘ Type de licence : Les modèles Whisper sont commercialisés sous la marque Whisper. Licence MIT, autorisant une utilisation à la fois commerciale et non commerciale.

Références 📖

Foire aux questions (FAQ)

Q1 : Quel est l'objectif principal du modèle Whisper d'OpenAI ?
A1 : Le modèle Whisper est un modèle avancé de reconnaissance automatique de la parole (ASR) et de traduction vocale, principalement destiné à la recherche en intelligence artificielle sur la robustesse, la généralisation et les biais des modèles. Il excelle également dans la reconnaissance vocale en anglais et offre de solides capacités multilingues.

Q2 : Quelles sont les principales applications du modèle Whisper ?
A2 : Il peut être utilisé pour diverses tâches, notamment la transcription de la parole, la traduction du langage parlé en texte et la génération de sous-titres pour le contenu audio et vidéo.

Q3 : Combien de langues Whisper prend-il en charge ?
A3 : Les modèles ont été entraînés sur des données couvrant 98 langues et montrent de solides performances dans environ 10 langues, avec une précision variable pour les autres.

Q4 : Existe-t-il des préoccupations éthiques concernant l’utilisation de Whisper ?
A4 : Oui, OpenAI déconseille fortement son utilisation pour la transcription d’enregistrements non consensuels ou dans les processus décisionnels à haut risque en raison des inexactitudes potentielles et des problèmes de confidentialité. Il est conseillé aux utilisateurs de suivre les directives éthiques d’OpenAI.

Q5 : Le modèle Whisper est-il open source ?
A5 : Oui, les modèles Whisper sont distribués sous la licence MIT, ce qui permet une utilisation commerciale et non commerciale par les développeurs et les chercheurs.

Terrain de jeu de l'IA

Testez tous les modèles d'API dans l'environnement de test avant de les intégrer. Nous proposons plus de 300 modèles à intégrer à votre application.
Essai gratuit
api-droite-1
modèle-bg02-1

Une API
Plus de 300 modèles d'IA

Économisez 20 % sur vos coûts