



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: 'aai/slam-1',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "aai/slam-1",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()

Detalhes do produto
Slam-1 destaca-se como a inovação da AssemblyAI. Modelo de Linguagem da Fala (MLF), projetado exclusivamente para unificar arquitetura de modelo de linguagem de grande escala com avançado codificadores de reconhecimento automático de fala (ASR)Essa poderosa combinação proporciona resultados superiores. precisão da transcrição de fala em textoDesenvolvido especificamente para tarefas de fala, o Slam-1 oferece uma compreensão profunda do contexto e da semântica, permitindo transcrição ágil e altamente personalizávelEle se adapta de forma inteligente à terminologia especializada do setor e ao conteúdo falado complexo, tornando-se uma solução ideal para casos de uso críticos em áreas de saúde, direito, vendas e tecnologia. que exigem transcrições precisas e que levem em consideração o contexto.
Especificações técnicas
Indicadores de desempenho
✅ Reduz as taxas de entidades não atendidas em até 66%, especialmente para nomes, termos médicos e técnicos.
✅ Reduz os erros de formatação em aproximadamente 20%.
✅ Preferido por mais de 72% de usuários finais em testes cegos versus modelos concorrentes.
✅ Obtém uma qualidade de transcrição mais confiável em contextos ruidosos e especializados.
✅ Oferece proteção robusta contra alucinações através de um arquitetura multimodal que processa simultaneamente áudio e linguagem.
Análise da arquitetura
A arquitetura do Slam-1 combina de forma singular um codificador de voz com um camada adaptadora precisamente ajustado para vincular características acústicas a um fixo modelo de linguagem amploIsso possibilita uma compreensão semântica poderosa. Esse design multimodal supera os modelos tradicionais de áudio para texto, interpretando o conteúdo falado de forma holística, oferecendo suporte. transcrição precisa e raciocínio contextualA abordagem alavanca engenharia rápida para personalizar dinamicamente a precisão da transcrição de acordo com vocabulários e padrões de fala específicos do setor.
Preços da API
Comece agora por apenas US$ 0,002625 por minuto
Principais características e funcionalidades
✨ Integração da fala e da linguagem: Combina perfeitamente o codificador de voz e o LLM para Fluxos de trabalho de transcrição personalizáveis e com instruções passo a passo..
⚙️ Ajuste fino e personalização: Habilita adaptação específica do domínio por meio de instruções simples, eliminando a necessidade de treinamento complexo.
🎯 Alta precisão: Oferece reconhecimento superior de termos raros e específicos de domínio. Melhorar significativamente as análises subsequentes e reduzir os esforços de revisão manual..
🗣️ Multicanal e Diarização de Oradores: Suporta totalmente fluxos de áudio complexos com Separação precisa dos alto-falantes e marcações de tempo fornecidas de fábrica..
🏢 Pronto para uso empresarial: Projetado especificamente para reduzir o esforço de pós-processamento e Aprimorar a qualidade das transcrições em setores de alto risco. tais como saúde e direito.
Exemplo de código
Comparação com outros modelos
VS AssemblyAI Universal: Slam-1 se destaca por Transcrição ágil e altamente personalizável, com reconhecimento de entidades superior para domínios especializados.Em contrapartida, o AssemblyAI Universal é otimizado para oferecer suporte a uma gama mais ampla de idiomas e menor latência, atendendo às necessidades gerais de transcrição.
VS GPT-4.1 (uso para transcrição de áudio): O Slam-1 foi projetado especificamente e altamente otimizado para conversão de fala em texto, incorporando recursos robustos de multicanal e diarização de locutores.O GPT-4.1, por outro lado, concentra-se principalmente em tarefas gerais de Processamento de Linguagem Natural (PLN) e não possui recursos nativos de processamento de áudio essenciais para uma transcrição completa.
Perguntas frequentes (FAQ)
P: O que torna o Slam-1 único entre as soluções de conversão de voz em texto?
UM: O Slam-1 é único devido à sua arquitetura inovadora que unifica um codificador de fala com um modelo de linguagem abrangente (LLM). Essa integração permite que ele compreenda o contexto e a semântica em um nível profundo, proporcionando uma precisão significativamente maior e possibilitando a transcrição personalizada e com instruções para conteúdo complexo e especializado, superando os sistemas tradicionais de reconhecimento automático de fala (ASR).
P: Como o Slam-1 garante alta precisão para terminologia especializada?
UM: O Slam-1 utiliza engenharia de reconhecimento imediato e seus recursos de aprendizado de máquina para se adaptar dinamicamente a vocabulários específicos de cada setor. Isso permite que os usuários personalizem o modelo para reconhecer nomes raros, termos médicos, jargões jurídicos e frases técnicas com precisão superior, sem a necessidade de extenso treinamento, reduzindo significativamente as taxas de entidades não reconhecidas.
P: Quais setores industriais se beneficiam mais das capacidades do Slam-1?
UM: Setores que exigem transcrição precisa e contextualizada se beneficiam imensamente. Isso inclui a área da saúde (para ditados médicos e registros de pacientes), o setor jurídico (para processos judiciais e depoimentos), o setor de vendas (para análise de chamadas) e a área técnica (para discussões técnicas detalhadas e documentação). A alta precisão e a capacidade de personalização do Slam-1 são cruciais nesses ambientes de alta pressão.
P: O Slam-1 suporta transcrição de áudio com múltiplos falantes?
UM: Sim, o Slam-1 vem com recursos integrados de multicanal e diarização de falantes. Isso significa que ele pode separar com precisão diferentes falantes em fluxos de áudio complexos e fornecer marcações de tempo para a contribuição de cada falante, tornando-o ideal para reuniões, entrevistas e outras gravações com vários participantes.
P: Como o Slam-1 aborda a questão das "alucinações" na transcrição?
UM: A arquitetura multimodal do Slam-1 foi projetada para ser robusta contra alucinações. Ao processar simultaneamente dados de áudio e linguagem, ele pode cruzar e validar informações de características acústicas com base na compreensão semântica, reduzindo significativamente a probabilidade de gerar conteúdo impreciso ou fabricado em suas transcrições.
Playground de IA



Conecte-se