



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: '#g1_whisper-large',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "#g1_whisper-large",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()

Detalhes do produto
Entendendo o modelo Whisper da OpenAI: uma visão geral abrangente
O Modelo Whisper, desenvolvido por OpenAIO Whisper representa um avanço crucial na tecnologia de reconhecimento automático de fala (ASR) e tradução de fala. Disponibilizado ao público para fomentar a pesquisa em IA, os modelos Whisper são projetados para robustez, generalização e para identificar potenciais vieses em sistemas de IA. Eles são particularmente eficazes para o reconhecimento de fala em inglês, mas oferecem fortes capacidades multilíngues.
Nota importante: O uso de modelos Whisper para transcrever gravações não consensuais ou em contextos de tomada de decisão de alto risco é fortemente desencorajado devido a possíveis imprecisões e preocupações éticas.
Informações básicas e evolução
- Nome do modelo: Sussurrar
- Desenvolvedor: OpenAI
- Histórico de lançamentos: Série original em setembro de 2022, seguida por
grande-v2em dezembro de 2022, egrande-v3Em novembro de 2023. - Tipo de modelo: Modelo de reconhecimento automático de fala (ASR) e tradução de fala sequência a sequência.
Visão geral das versões do modelo Whisper
| Tamanho | Parâmetros | Velocidade relativa |
|---|---|---|
| pequeno | 39 M | ~32x |
| base | 74 M | ~16x |
| pequeno | 244 M | ~6x |
| médio | 769 M | ~2x |
| grande | 1550 m | 1x |
Principais características dos modelos Whisper ⭐
- ✓ Capacidades multilíngues: Desempenho sólido em aproximadamente 10 idiomas, com avaliação contínua para aplicações mais amplas, como detecção de voz e classificação de falantes.
- ✓ Robustez: Excepcionalmente resistente a diversos sotaques, dialetos e ambientes sonoros ruidosos.
- ✓ Aplicações versáteis: Ideal para transcrição de fala, tradução de idiomas e geração automática de legendas.
Casos de uso pretendidos 🚀
Os modelos Whisper destinam-se principalmente a desenvolvedores e pesquisadoresSão ferramentas valiosas para integrar funcionalidades avançadas de conversão de fala em texto em diversas aplicações, aprimorando recursos de acessibilidade e apoiando iniciativas de pesquisa linguística.
Detalhes técnicos ⚙️
Arquitetura:
O modelo Whisper é construído sobre uma base sofisticada. Arquitetura de transformadoresEssa arquitetura é pré-treinada em um extenso conjunto de dados que inclui dados de aprendizado supervisionado e não supervisionado, permitindo um aprendizado robusto de recursos.
Dados de treinamento:
O treinamento envolveu um volume enorme de 680.000 horas de áudio proveniente da internet e suas respectivas transcrições. Este conjunto de dados foi meticulosamente balanceado:
- ‣ 65% Áudio em inglês com transcrição em inglês.
- ‣ 18% Áudio em idioma diferente do inglês com transcrições em inglês.
- ‣ 17% Áudio em idioma diferente do inglês com transcrições correspondentes também em idioma diferente do inglês.
No total, os dados de treinamento abrangeram 98 idiomas distintos.
Métricas e considerações de desempenho:
Pesquisas indicam que os modelos Whisper geralmente superam muitos sistemas de reconhecimento automático de fala (ASR) existentes, demonstrando maior robustez a sotaques, ruído de fundo e linguagem técnica especializada. Eles oferecem precisão quase de última geração tanto no reconhecimento de fala quanto na tradução automática de vários idiomas para o inglês.
No entanto, o desempenho pode variar significativamente entre idiomas, principalmente naqueles com poucos recursos ou menos estudados. A precisão também pode variar de acordo com diferentes sotaques, dialetos e grupos demográficos. Os modelos podem ocasionalmente gerar textos repetitivos, uma característica que geralmente pode ser atenuada por meio de técnicas como busca em feixe e agendamento por temperatura.
Nível de conhecimento limite:
Os dados de áudio e texto usados para treinar os modelos Whisper não incluem informações posteriores a meados de 2022.
Utilização e integração 💻
- Exemplos de código/SDK: Os desenvolvedores podem acessar as funcionalidades do Whisper por meio de SDKs e exemplos de código disponíveis para integração em seus aplicativos.
- Tutoriais: Explore guias como o Experiência multimodal de conversão de fala em texto em NodeJS Para obter dicas práticas de implementação.
- Tamanho máximo do arquivo: O limite atual para processamento de arquivos de áudio é de 2 GB.
Apoio e Comunidade 💬
- Recursos comunitários: Participe da discussão e obtenha suporte sobre o API AIML do Discord servidor.
- Canais de suporte: Reporte problemas ou contribua diretamente através do canal oficial. Repositório GitHub do OpenAI Whisper.
Considerações éticas e licenciamento ⚖️
- ⚠ Diretrizes Éticas: A OpenAI oferece orientações abrangentes sobre o uso responsável, enfatizando a importância da privacidade e da implementação ética das tecnologias de IA.
- ⚠ Mitigação de Viés: Estão em curso esforços contínuos para reduzir os vieses na precisão do reconhecimento de fala em diferentes idiomas, sotaques e grupos demográficos.
- ⓘ Tipo de licença: Os modelos Whisper são lançados sob a marca Licença MIT, permitindo tanto o uso comercial quanto o não comercial.
Referências 📖
- Saiba mais sobre a pesquisa subjacente: Whisper: Reconhecimento de fala robusto por meio de supervisão fraca em larga escala
Perguntas frequentes (FAQ)
P1: Qual é o principal objetivo do modelo Whisper da OpenAI?
A1: O modelo Whisper é um modelo avançado de reconhecimento automático de fala (ASR) e tradução de fala, destinado principalmente à pesquisa em IA sobre robustez, generalização e vieses do modelo. Ele também se destaca no reconhecimento de fala em inglês e oferece fortes capacidades multilíngues.
Q2: Quais são as principais aplicações do modelo Whisper?
A2: Pode ser usado para diversas tarefas, incluindo transcrição de fala, tradução de linguagem falada em texto e geração de legendas para conteúdo de áudio e vídeo.
P3: Quantos idiomas o Whisper suporta?
A3: Os modelos foram treinados com dados que abrangem 98 idiomas e apresentam um desempenho sólido em aproximadamente 10 idiomas, com precisão variável nos demais.
Q4: Existem preocupações éticas em relação ao uso do Whisper?
A4: Sim, a OpenAI desencoraja veementemente o uso da ferramenta para transcrever gravações sem consentimento ou em processos de tomada de decisão de alto risco devido a possíveis imprecisões e preocupações com a privacidade. Recomenda-se que os usuários sigam as diretrizes éticas da OpenAI.
Q5: O modelo Whisper é de código aberto?
A5: Sim, os modelos Whisper são distribuídos sob a licença MIT, permitindo o uso comercial e não comercial por desenvolvedores e pesquisadores.
Playground de IA



Conecte-se