Fora

Bater papo

desativar

Universal

O Universal foi projetado para integração perfeita em diversos fluxos de trabalho de conversão de fala em texto, permitindo transcrição precisa e eficiente em vários idiomas e condições de áudio.

Tokens de $1 grátis para novos membros

Text to Speech

Javascript

Python

                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: 'aai/universal',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();

                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "aai/universal",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()

Docs

Mais de 300 modelos de IA para OpenClaw e agentes de IA

Economize 20% nos custos e ganhe tokens grátis de $1.

Obter chave de API Explorar modelos

Universal

Detalhes do produto

A série Universal da AssemblyAI representa o auge de Conversão de fala em texto (STT) Tecnologia projetada para transformar a linguagem falada em texto altamente preciso e inteligível. Esses modelos avançados são meticulosamente treinados em mais de 12,5 milhões de horas de dados de áudio multilíngues diversosIsso lhes permite se destacar em situações conversacionais complexas do mundo real. Eles lidam com maestria com múltiplos interlocutores, diversos sotaques e ruídos de fundo desafiadores com excepcional fidelidade.

⚙ Especificações técnicas

✓ Arquitetura: Universal-1 aproveita um Codificador conformer combinado com um transdutor de rede neural recorrente (RNN-T) Modelo otimizado tanto para velocidade quanto para precisão.
✓ Detalhes do codificador: Apresenta camadas convolucionais para subamostragem 4x, codificação posicional e 24 camadas Conformer, totalizando aproximadamente 600 milhões de parâmetrosCada bloco Conformer utiliza atenção segmentada em partes de segmentos de áudio de 8 segundos para um processamento mais rápido e robustez a diferentes durações de áudio.
✓ Decodificador: Consiste em um preditor LSTM de duas camadas com um elemento de junção, empregando um Tokenizador WordPiece treinadas em extensos corpora multilíngues.
✓ Processamento paralelo: Projetado para computação de codificador altamente paralelizada, permitindo Inferência em larga escala e com baixa latênciaIdeal para aplicações em tempo real.
✓ Marcação de tempo: Garante o alinhamento preciso do tempo para uma exatidão. estimativa de carimbo de data/hora em nível de palavra.

📈 Indicadores de desempenho

✓ WER de última geração: Alcança níveis de liderança no setor. Taxa de erro de palavras (WER, na sigla em inglês), superando inúmeros fornecedores comerciais de ASR e modelos de código aberto, incluindo o Whisper Large-v3 da OpenAI e o Canary-1B da NVIDIA.
✓ Maior robustez: Demonstra robustez superior em relação ao ruído e desempenho robusto em telefonia e outros ambientes acústicos desafiadores.
✓ Competência multilíngue: Mostra WER competitivo em Espanhol, francês e alemão conjuntos de dados, exibindo capacidades robustas em vários idiomas.
✓ Melhoria qualitativa: As avaliações humanas revelam uma Preferência de 60% para transcrições Universal-1 em comparação com a geração anterior Conformer-2, ressaltando melhorias qualitativas significativas na transcrição.

💰 Preços da API

US$ 0,004725 por minuto

📣 Principais características e funcionalidades

✓ Transcrição de alta precisão: Fornece transcrições precisas, completas com pontuação, uso de maiúsculas e formatação avançada de texto.
✓ Diarização de falantes: Identifica e diferencia de forma inteligente palestrantes individuais dentro do áudio.
✓ Reconhecimento Avançado de Entidades: Reconhece e transcreve com precisão. nomes próprios e conteúdo alfanumérico (ex.: números de telefone, endereços de e-mail).
✓ Processamento em tempo real: Ofertas transcrição em tempo real de baixa latência Com escalabilidade e eficiência excepcionais.
✓ Personalização e ajustes finos: Oferece opções flexíveis para Ajuste fino e personalização Para atender a diversos casos de uso empresarial.
✓ IA Ética: Integra estratégias rigorosas para Mitigação de viés, segurança de conteúdo e redução de alucinações.

💻 Exemplo de código

🔗 Comparação com outros modelos

► Universal vs GPT-5

Enquanto O GPT-5 possui uma enorme janela de contexto de 400.000 tokens. Embora possua raciocínio hierárquico avançado, o que o torna ideal para compreensão e geração de linguagem em larga escala, ele é menos adequado para processamento de transcrição de fala em tempo real em comparação com o Universal. O Universal foi desenvolvido especificamente para transcrição de fala de alta precisão.

► Universal vs GPT-4.1

O GPT-4.1 é especializado em tarefas de codificação. e manipulação de código estruturado com uma janela de contexto menor. Embora otimizado para cenários voltados para desenvolvedores, ele carece dos amplos recursos de reconhecimento de fala e integração multimodal que são essenciais para o AssemblyAI Universal.

► Universal vs OpenAI o3

O OpenAI o3 serve principalmente para tarefas de agentes legados. Com compreensão básica de imagens, apresenta maior latência e raciocínio multimodal menos preciso em comparação com o AssemblyAI Universal, tornando-o menos eficaz para transcrição em tempo real e aplicações multimodais modernas.

📜 Perguntas frequentes

1. O que faz com que o AssemblyAI Universal se destaque na tecnologia de conversão de fala em texto?

O AssemblyAI Universal se destaca devido ao seu treinamento em mais de 12,5 milhões de horas de dados de áudio multilíngue, permitindo-lhe lidar com cenários complexos do mundo real com alta precisão, incluindo múltiplos falantes, sotaques diversos e ruído de fundo significativo.

2. Quais são os principais componentes técnicos do Universal-1?

Universal-1 emprega um Codificador conformer com 24 camadas e aproximadamente 600 milhões de parâmetros, combinado com um Modelo RNN-TEle apresenta atenção por blocos para processamento mais rápido e um decodificador LSTM de duas camadas com um tokenizador WordPiece.

3. Como o Universal se compara a outros modelos líderes de ASR?

Universal alcança Taxa de erro de palavras (WER) de última geração em inglês, superando modelos como o Whisper Large-v3 da OpenAI e o Canary-1B da NVIDIA. Também apresenta taxas de erro de palavras (WER) competitivas em espanhol, francês e alemão, demonstrando forte robustez entre idiomas.

4. Quais são as funcionalidades exclusivas que o AssemblyAI Universal oferece?

Além da transcrição de alta precisão, oferece diarização de falantes, reconhecimento preciso de nomes próprios e conteúdo alfanumérico, transcrição em tempo real de baixa latênciae flexível opções de personalização Para uso empresarial.

5. O Universal é adequado para aplicações em tempo real?

Sim, a arquitetura da Universal foi projetada especificamente para computação altamente paralelizada e possibilita Inferência em larga escala e com baixa latência, tornando-o ideal para transcrição em tempo real e aplicações que exigem processamento imediato.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.

Experimente grátis

Mais de 300 modelos de IA para
OpenClaw e Agentes de IA

Economize 20% nos custos