qwen-bg
ico máximo04
En
Afuera
ico-máximo02
Charlar
ico-máximo03
desactivar
Susurro
La API Whisper de OpenAI ofrece capacidades robustas y multilingües de conversión de voz a texto, entrenadas con datos diversos, y de uso comercial gratuito bajo la licencia MIT.
Fichas de $1 gratis para nuevos miembros
Text to Speech
                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_whisper-large',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();
                                
                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_whisper-large",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()
Docs

Más de 300 modelos de IA para OpenClaw y agentes de IA

Ahorra un 20% en costes y obtén fichas gratis de 1 $.
qwenmax-bg
imagen
Susurro

Detalles del producto

Comprender el modelo Whisper de OpenAI: una visión general completa

El Modelo Whisper, desarrollado por OpenAIWhisper representa un avance fundamental en el reconocimiento automático del habla (ASR) y la tecnología de traducción de voz. Publicados para fomentar la investigación en IA, los modelos Whisper están diseñados para ser robustos, generalizables e identificar posibles sesgos en los sistemas de IA. Son particularmente eficaces para el reconocimiento del habla en inglés, pero ofrecen sólidas capacidades multilingües.

Nota importante: Se desaconseja encarecidamente el uso de modelos Whisper para transcribir grabaciones no consensuales o en contextos de toma de decisiones de alto riesgo debido a las posibles imprecisiones y las preocupaciones éticas.

Información básica y evolución

  • Nombre del modelo: Susurro
  • Revelador: OpenAI
  • Historial de lanzamientos: Serie original en septiembre de 2022, seguida de grande-v2 en diciembre de 2022, y grande-v3 en noviembre de 2023.
  • Tipo de modelo: Modelo de reconocimiento automático del habla (ASR) y traducción del habla de secuencia a secuencia.

Descripción general de las versiones del modelo Whisper

Tamaño Parámetros Velocidad relativa
diminuto 39 M ~32x
base 74 M ~16x
pequeño 244 M ~6x
medio 769 M ~2x
grande 1550 M 1x

Características principales de los modelos Whisper

  • ✓ Capacidades multilingües: Excelente rendimiento en aproximadamente 10 idiomas, con evaluación en curso para aplicaciones más amplias como la detección de voz y la clasificación de locutores.
  • ✓ Robustez: Excepcionalmente resistente a diversos acentos, dialectos y entornos de audio ruidosos.
  • ✓ Aplicaciones versátiles: Ideal para la transcripción de voz, la traducción de idiomas y la generación automática de subtítulos.

Casos de uso previstos 🚀

Los modelos Whisper están destinados principalmente a desarrolladores e investigadoresSon herramientas valiosas para integrar funcionalidades avanzadas de conversión de voz a texto en diversas aplicaciones, mejorar las características de accesibilidad y apoyar las iniciativas de investigación lingüística.

Detalles técnicos ⚙️

Arquitectura:

El modelo Whisper se basa en un sistema sofisticado. Arquitectura de transformadoresEsta arquitectura está preentrenada en un extenso conjunto de datos que comprende datos de aprendizaje supervisado y no supervisado, lo que permite un aprendizaje de características robusto.

Datos de entrenamiento:

El entrenamiento requirió la enorme cantidad de 680 000 horas de audio obtenido de internet y sus transcripciones correspondientes. Este conjunto de datos fue meticulosamente equilibrado:

  • ‣ 65% Audio en inglés con transcripciones en inglés.
  • ‣ 18% Audio en un idioma distinto al inglés con transcripciones en inglés.
  • ‣ 17% Audio en un idioma distinto al inglés con transcripciones correspondientes en otro idioma.

En total, los datos de entrenamiento abarcaron 98 idiomas distintos.

Métricas y consideraciones de rendimiento:

Las investigaciones indican que los modelos Whisper generalmente superan a muchos sistemas ASR existentes, demostrando una mayor robustez ante acentos, ruido de fondo y lenguaje técnico especializado. Ofrecen una precisión casi de vanguardia tanto en el reconocimiento de voz como en la traducción automática de varios idiomas al inglés.

Sin embargo, el rendimiento puede variar significativamente entre idiomas, especialmente en aquellos con pocos recursos o menos estudiados. La precisión también puede diferir según los distintos acentos, dialectos y grupos demográficos. En ocasiones, los modelos pueden generar texto repetitivo, una característica que suele mitigarse mediante técnicas como la búsqueda en haz y la programación de temperatura.

Punto de corte de conocimiento:

Los datos de audio y texto utilizados para entrenar los modelos de Whisper no incluyen información posterior a mediados de 2022.

Uso e integración 💻

  • Ejemplos de código/SDK: Los desarrolladores pueden acceder a las funcionalidades de Whisper a través de los SDK disponibles y los ejemplos de código para integrarlos en sus aplicaciones.
  • Tutoriales: Explora guías como la Experiencia multimodal de voz a texto en NodeJS para obtener información práctica sobre su implementación.
  • Tamaño máximo del archivo: El límite actual para el procesamiento de archivos de audio es de 2 GB.

Apoyo y comunidad 💬

Consideraciones éticas y licencias ⚖️

  • ⚠ Directrices éticas: OpenAI proporciona una guía completa sobre el uso responsable, haciendo hincapié en la importancia de la privacidad y el despliegue ético de las tecnologías de IA.
  • ⚠ Mitigación de sesgos: Se están realizando esfuerzos continuos para reducir los sesgos en la precisión del reconocimiento de voz en diferentes idiomas, acentos y grupos demográficos.
  • ⓘ Tipo de licencia: Los modelos Whisper se lanzan bajo el Licencia MIT, permitiendo tanto el uso comercial como el no comercial.

Referencias 📖

Preguntas frecuentes (FAQ)

P1: ¿Cuál es el objetivo principal del modelo Whisper de OpenAI?
A1: El modelo Whisper es un modelo avanzado de reconocimiento automático del habla (ASR) y traducción de voz, diseñado principalmente para la investigación en IA sobre la robustez, la generalización y los sesgos de los modelos. Además, destaca en el reconocimiento del habla en inglés y ofrece sólidas capacidades multilingües.

P2: ¿Cuáles son las principales aplicaciones del modelo Whisper?
A2: Se puede utilizar para diversas tareas, como la transcripción de voz, la traducción del lenguaje hablado a texto y la generación de subtítulos para contenido de audio y vídeo.

P3: ¿Cuántos idiomas admite Whisper?
A3: Los modelos fueron entrenados con datos que abarcan 98 idiomas y muestran un rendimiento sólido en aproximadamente 10 idiomas, con una precisión variable para los demás.

P4: ¿Existen preocupaciones éticas con respecto al uso de Whisper?
A4: Sí, OpenAI desaconseja encarecidamente su uso para transcribir grabaciones no consensuales o en procesos de toma de decisiones de alto riesgo debido a posibles imprecisiones y problemas de privacidad. Se recomienda a los usuarios que sigan las directrices éticas de OpenAI.

P5: ¿El modelo Whisper es de código abierto?
A5: Sí, los modelos de Whisper se publican bajo la licencia MIT, lo que permite su uso tanto comercial como no comercial por parte de desarrolladores e investigadores.

Campo de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.
Pruébalo gratis
api-right-1
modelo-bg02-1

Más de 300 modelos de IA para
OpenClaw y agentes de IA

Ahorre un 20% en costos