qwen-bg
max-ico04
Em
Fora
max-ico02
Bater papo
max-ico03
desativar
Sussurrar
A API Whisper da OpenAI oferece recursos robustos e multilíngues de conversão de fala em texto, treinados em diversos conjuntos de dados e disponíveis gratuitamente para uso comercial sob a licença MIT.
Tokens de $1 grátis para novos membros
Text to Speech
                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_whisper-large',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();
                                
                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_whisper-large",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()
Docs

Uma API com mais de 300 modelos de IA

Economize 20% nos custos e ganhe tokens grátis de $1.
qwenmax-bg
imagem
Sussurrar

Detalhes do produto

Entendendo o modelo Whisper da OpenAI: uma visão geral abrangente

O Modelo Whisper, desenvolvido por OpenAIO Whisper representa um avanço crucial na tecnologia de reconhecimento automático de fala (ASR) e tradução de fala. Disponibilizado ao público para fomentar a pesquisa em IA, os modelos Whisper são projetados para robustez, generalização e para identificar potenciais vieses em sistemas de IA. Eles são particularmente eficazes para o reconhecimento de fala em inglês, mas oferecem fortes capacidades multilíngues.

Nota importante: O uso de modelos Whisper para transcrever gravações não consensuais ou em contextos de tomada de decisão de alto risco é fortemente desencorajado devido a possíveis imprecisões e preocupações éticas.

Informações básicas e evolução

  • Nome do modelo: Sussurrar
  • Desenvolvedor: OpenAI
  • Histórico de lançamentos: Série original em setembro de 2022, seguida por grande-v2 em dezembro de 2022, e grande-v3 Em novembro de 2023.
  • Tipo de modelo: Modelo de reconhecimento automático de fala (ASR) e tradução de fala sequência a sequência.

Visão geral das versões do modelo Whisper

Tamanho Parâmetros Velocidade relativa
pequeno 39 M ~32x
base 74 M ~16x
pequeno 244 M ~6x
médio 769 M ~2x
grande 1550 m 1x

Principais características dos modelos Whisper

  • ✓ Capacidades multilíngues: Desempenho sólido em aproximadamente 10 idiomas, com avaliação contínua para aplicações mais amplas, como detecção de voz e classificação de falantes.
  • ✓ Robustez: Excepcionalmente resistente a diversos sotaques, dialetos e ambientes sonoros ruidosos.
  • ✓ Aplicações versáteis: Ideal para transcrição de fala, tradução de idiomas e geração automática de legendas.

Casos de uso pretendidos 🚀

Os modelos Whisper destinam-se principalmente a desenvolvedores e pesquisadoresSão ferramentas valiosas para integrar funcionalidades avançadas de conversão de fala em texto em diversas aplicações, aprimorando recursos de acessibilidade e apoiando iniciativas de pesquisa linguística.

Detalhes técnicos ⚙️

Arquitetura:

O modelo Whisper é construído sobre uma base sofisticada. Arquitetura de transformadoresEssa arquitetura é pré-treinada em um extenso conjunto de dados que inclui dados de aprendizado supervisionado e não supervisionado, permitindo um aprendizado robusto de recursos.

Dados de treinamento:

O treinamento envolveu um volume enorme de 680.000 horas de áudio proveniente da internet e suas respectivas transcrições. Este conjunto de dados foi meticulosamente balanceado:

  • ‣ 65% Áudio em inglês com transcrição em inglês.
  • ‣ 18% Áudio em idioma diferente do inglês com transcrições em inglês.
  • ‣ 17% Áudio em idioma diferente do inglês com transcrições correspondentes também em idioma diferente do inglês.

No total, os dados de treinamento abrangeram 98 idiomas distintos.

Métricas e considerações de desempenho:

Pesquisas indicam que os modelos Whisper geralmente superam muitos sistemas de reconhecimento automático de fala (ASR) existentes, demonstrando maior robustez a sotaques, ruído de fundo e linguagem técnica especializada. Eles oferecem precisão quase de última geração tanto no reconhecimento de fala quanto na tradução automática de vários idiomas para o inglês.

No entanto, o desempenho pode variar significativamente entre idiomas, principalmente naqueles com poucos recursos ou menos estudados. A precisão também pode variar de acordo com diferentes sotaques, dialetos e grupos demográficos. Os modelos podem ocasionalmente gerar textos repetitivos, uma característica que geralmente pode ser atenuada por meio de técnicas como busca em feixe e agendamento por temperatura.

Nível de conhecimento limite:

Os dados de áudio e texto usados ​​para treinar os modelos Whisper não incluem informações posteriores a meados de 2022.

Utilização e integração 💻

  • Exemplos de código/SDK: Os desenvolvedores podem acessar as funcionalidades do Whisper por meio de SDKs e exemplos de código disponíveis para integração em seus aplicativos.
  • Tutoriais: Explore guias como o Experiência multimodal de conversão de fala em texto em NodeJS Para obter dicas práticas de implementação.
  • Tamanho máximo do arquivo: O limite atual para processamento de arquivos de áudio é de 2 GB.

Apoio e Comunidade 💬

Considerações éticas e licenciamento ⚖️

  • ⚠ Diretrizes Éticas: A OpenAI oferece orientações abrangentes sobre o uso responsável, enfatizando a importância da privacidade e da implementação ética das tecnologias de IA.
  • ⚠ Mitigação de Viés: Estão em curso esforços contínuos para reduzir os vieses na precisão do reconhecimento de fala em diferentes idiomas, sotaques e grupos demográficos.
  • ⓘ Tipo de licença: Os modelos Whisper são lançados sob a marca Licença MIT, permitindo tanto o uso comercial quanto o não comercial.

Referências 📖

Perguntas frequentes (FAQ)

P1: Qual é o principal objetivo do modelo Whisper da OpenAI?
A1: O modelo Whisper é um modelo avançado de reconhecimento automático de fala (ASR) e tradução de fala, destinado principalmente à pesquisa em IA sobre robustez, generalização e vieses do modelo. Ele também se destaca no reconhecimento de fala em inglês e oferece fortes capacidades multilíngues.

Q2: Quais são as principais aplicações do modelo Whisper?
A2: Pode ser usado para diversas tarefas, incluindo transcrição de fala, tradução de linguagem falada em texto e geração de legendas para conteúdo de áudio e vídeo.

P3: Quantos idiomas o Whisper suporta?
A3: Os modelos foram treinados com dados que abrangem 98 idiomas e apresentam um desempenho sólido em aproximadamente 10 idiomas, com precisão variável nos demais.

Q4: Existem preocupações éticas em relação ao uso do Whisper?
A4: Sim, a OpenAI desencoraja veementemente o uso da ferramenta para transcrever gravações sem consentimento ou em processos de tomada de decisão de alto risco devido a possíveis imprecisões e preocupações com a privacidade. Recomenda-se que os usuários sigam as diretrizes éticas da OpenAI.

Q5: O modelo Whisper é de código aberto?
A5: Sim, os modelos Whisper são distribuídos sob a licença MIT, permitindo o uso comercial e não comercial por desenvolvedores e pesquisadores.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.
Experimente grátis
api-right-1
modelo-bg02-1

Uma API
Mais de 300 modelos de IA

Economize 20% nos custos