qwen-bg
max-ico04
En
Afuera
max-ico02
Charlar
max-ico03
desactivar
Susurro
La API Whisper de OpenAI ofrece capacidades robustas y multilingües de conversión de voz a texto, entrenadas con datos diversos y gratuitas para uso comercial bajo la licencia MIT.
Tokens gratis de $1 para nuevos miembros
Text to Speech
                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_whisper-large',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();
                                
                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_whisper-large",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()
Docs

Una API con más de 300 modelos de IA

Ahorre un 20% en costos y $1 en tokens gratis
qwenmax-bg
imagen
Susurro

Detalle del producto

Entendiendo el modelo Whisper de OpenAI: Una visión general completa

El Modelo susurrante, desarrollado por OpenAI, representa un avance fundamental en el reconocimiento automático de voz (ASR) y la tecnología de traducción de voz. Publicados para fomentar la investigación en IA, los modelos Whisper están diseñados para ofrecer robustez, generalización e identificación de posibles sesgos en los sistemas de IA. Son especialmente eficaces para el reconocimiento de voz en inglés, pero ofrecen sólidas capacidades multilingües.

Nota importante: Se desaconseja enfáticamente el uso de modelos Whisper para transcribir grabaciones no consensuadas o en contextos de toma de decisiones de alto riesgo debido a posibles inexactitudes y preocupaciones éticas.

Información básica y evolución

  • Nombre del modelo: Susurro
  • Revelador: OpenAI
  • Historial de versiones: Serie original en septiembre de 2022, seguida de grande-v2 en diciembre de 2022, y grande-v3 en noviembre de 2023.
  • Tipo de modelo: Modelo de reconocimiento automático de voz (ASR) secuencia a secuencia y modelo de traducción de voz.

Descripción general de las versiones del modelo Whisper

Tamaño Parámetros Velocidad relativa
diminuto 39 millones ~32x
base 74 millones ~16x
pequeño 244 millones ~6x
medio 769 millones ~2x
grande 1550 millones 1x

Características principales de los modelos Whisper

  • ✓ Capacidades multilingües: Excelente rendimiento en aproximadamente 10 idiomas, con evaluación continua para aplicaciones más amplias, como detección de voz y clasificación de hablantes.
  • ✓ Robustez: Excepcionalmente resistente a diversos acentos, dialectos y entornos de audio ruidosos.
  • ✓ Aplicaciones versátiles: Ideal para transcripción de voz, traducción de idiomas y generación automática de subtítulos.

Casos de uso previstos 🚀

Los modelos Whisper están pensados ​​principalmente para desarrolladores e investigadoresSon herramientas valiosas para integrar funcionalidades avanzadas de conversión de voz a texto en diversas aplicaciones, mejorar las funciones de accesibilidad y respaldar iniciativas de investigación lingüística.

Detalles técnicos ⚙️

Arquitectura:

El modelo Whisper se basa en un sofisticado Arquitectura del transformadorEsta arquitectura está entrenada previamente en un amplio conjunto de datos que incluye datos de aprendizaje supervisados ​​y no supervisados, lo que permite un aprendizaje de características sólido.

Datos de entrenamiento:

La capacitación implicó la enorme cantidad de 680.000 horas de audio de internet y sus correspondientes transcripciones. Este conjunto de datos se equilibró meticulosamente:

  • ‣ 65% Audio en inglés con transcripciones en inglés.
  • ‣ 18% Audio en otros idiomas con transcripciones en inglés.
  • ‣ 17% Audio en otros idiomas con transcripciones correspondientes en otros idiomas.

En total, los datos de entrenamiento cubrieron 98 idiomas distintos.

Métricas y consideraciones de rendimiento:

Las investigaciones indican que los modelos Whisper generalmente superan a muchos sistemas ASR existentes, mostrando una mayor robustez ante acentos, ruido de fondo y lenguaje técnico especializado. Ofrecen una precisión casi de vanguardia tanto en reconocimiento de voz como en traducción instantánea de varios idiomas al inglés.

Sin embargo, el rendimiento puede variar significativamente entre idiomas, especialmente en aquellos con pocos recursos o menos estudiados. La precisión también puede variar según los acentos, dialectos y grupos demográficos. En ocasiones, los modelos pueden generar texto repetitivo, una característica que a menudo se puede mitigar mediante técnicas como la búsqueda de haces y la programación de temperatura.

Nivel de conocimiento:

Los datos de audio y texto utilizados para entrenar los modelos Whisper no incluyen información posterior a mediados de 2022.

Uso e integración 💻

  • Ejemplos de código/SDK: Los desarrolladores pueden acceder a las funcionalidades de Whisper a través de los SDK y ejemplos de código disponibles para su integración en sus aplicaciones.
  • Tutoriales: Explora guías como la Experiencia multimodal de conversión de voz a texto en NodeJS para obtener información práctica sobre la implementación.
  • Tamaño máximo de archivo: El límite actual para el procesamiento de archivos de audio es de 2 GB.

Soporte y comunidad 💬

Consideraciones éticas y licencias ⚖️

  • ⚠ Pautas éticas: OpenAI ofrece orientación integral sobre el uso responsable, enfatizando la importancia de la privacidad y la implementación ética de las tecnologías de IA.
  • ⚠ Mitigación de sesgos: Se están realizando esfuerzos continuos para reducir los sesgos en la precisión del reconocimiento de voz en diferentes idiomas, acentos y grupos demográficos.
  • ⓘ Tipo de licencia: Los modelos Whisper se lanzan bajo el Licencia MIT, permitiendo tanto el uso comercial como no comercial.

Referencias 📖

Preguntas frecuentes (FAQ)

P1: ¿Cuál es el propósito principal del modelo Whisper de OpenAI?
A1: El modelo Whisper es un modelo avanzado de ASR y traducción de voz, diseñado principalmente para la investigación de IA en robustez, generalización y sesgos de modelos. También destaca en el reconocimiento de voz en inglés y ofrece sólidas capacidades multilingües.

P2: ¿Cuáles son las principales aplicaciones del modelo Whisper?
A2: Se puede utilizar para diversas tareas, incluida la transcripción de voz, la traducción del lenguaje hablado a texto y la generación de subtítulos para contenido de audio y video.

P3: ¿Cuántos idiomas admite Whisper?
A3: Los modelos se entrenaron con datos que cubren 98 idiomas y muestran un sólido desempeño en aproximadamente 10 idiomas, con precisión variable para otros.

P4: ¿Existen preocupaciones éticas con respecto al uso de Whisper?
A4: Sí, OpenAI desaconseja encarecidamente su uso para transcribir grabaciones no consensuadas o en procesos de toma de decisiones de alto riesgo debido a posibles inexactitudes y problemas de privacidad. Se recomienda a los usuarios que sigan las directrices éticas de OpenAI.

P5: ¿El modelo Whisper es de código abierto?
A5: Sí, los modelos Whisper se publican bajo la licencia MIT, lo que permite el uso comercial y no comercial por parte de desarrolladores e investigadores.

Patio de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Pruébalo gratis
api-right-1
modelo-bg02-1

Una API
Más de 300 modelos de IA

Ahorre un 20% en costos