



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: 'aai/slam-1',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "aai/slam-1",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()

Подробная информация о товаре
Шлем-1 является новаторским проектом AssemblyAI. Модель речи и языка (SLM), уникальный дизайн, призванный объединять архитектура большой языковой модели с продвинутым кодировщики автоматического распознавания речи (ASR)Эта мощная комбинация обеспечивает превосходные результаты. точность транскрипции речи в текстРазработанный специально для решения речевых задач, Slam-1 обеспечивает глубокое понимание контекста и семантики, позволяя оперативная и легко настраиваемая транскрипцияОн интеллектуально адаптируется к специализированной отраслевой терминологии и сложному устному контенту, что делает его идеальным решением для критически важных сценариев использования. здравоохранение, юриспруденция, продажи и технические сферы которые требуют точной транскрипции с учетом контекста.
Технические характеристики
Показатели производительности
✅ Снижает процент пропущенных сущностей до 66%особенно это касается имен, медицинских и технических терминов.
✅ Уменьшает количество ошибок форматирования примерно на 20%.
✅ Предпочтение отдаётся более чем 72% конечных пользователей в слепых тестах по сравнению с конкурирующими моделями.
✅ Обеспечивает более высокое качество транскрипции в шумные и специализированные контексты.
✅ Обеспечивает защиту от галлюцинаций благодаря многомодальная архитектура который одновременно обрабатывает аудио и речь.
Архитектурный анализ
Архитектура Slam-1 представляет собой уникальное сочетание различных элементов. кодировщик речи с адаптерный слой точно настроен для связи акустических характеристик с фиксированным большая языковая модельЭто обеспечивает мощное семантическое понимание. Такая многомодальная конструкция превосходит традиционные модели преобразования аудио в текст, интерпретируя устную речь целостно и поддерживая точная транскрипция и контекстное обоснованиеДанный подход использует оперативное проектирование для динамической настройки точности транскрипции с учетом отраслевых терминов и речевых особенностей.
Цены на API
Начните всего за 0,002625 долларов в минуту
Основные характеристики и возможности
✨ Интеграция речи и языка: Обеспечивает бесшовное соединение кодировщика речи и LLM для Управляемые и настраиваемые рабочие процессы транскрипции.
⚙️ Тонкая настройка и персонализация: Включает адаптация, специфичная для конкретной области с помощью простых подсказок, что исключает необходимость в сложном переобучении.
🎯 Высокая точность: Обеспечивает превосходное распознавание редких и узкоспециализированных терминов. значительно улучшает последующий анализ данных и сокращает трудозатраты на ручную проверку..
🗣️ Многоканальная и диаризация говорящих: Полная поддержка сложных аудиопотоков с Точное разделение динамиков и временные метки предоставляются сразу после распаковки..
🏢 Готовность к использованию в масштабах предприятия: Специально разработан для сокращения трудозатрат на постобработку и повышение качества транскриптов в отраслях с высокими ставками например, здравоохранение и юриспруденция.
Пример кода
Сравнение с другими моделями
VS AssemblyAI Universal: Slam-1 выделяется тем, что Удобная, легко настраиваемая транскрипция с превосходным распознаванием сущностей для специализированных областей.В отличие от них, AssemblyAI Universal оптимизирован для более широкой языковой поддержки и меньшей задержки, удовлетворяя общие потребности в транскрипции.
VS GPT-4.1 (использование для транскрипции аудио): Slam-1 разработан специально для этих целей и оптимизирован для Преобразование речи в текст, включающее в себя надежные многоканальные функции и функцию диаризации речи говорящего.GPT-4.1, с другой стороны, в основном ориентирован на общие задачи обработки естественного языка (NLP) и не обладает встроенными возможностями обработки звука, необходимыми для всесторонней транскрипции.
Часто задаваемые вопросы (FAQ)
В: Чем Slam-1 уникален среди решений для преобразования речи в текст?
А: Уникальность Slam-1 заключается в инновационной архитектуре, объединяющей кодировщик речи с большой языковой моделью (LLM). Эта интеграция позволяет ему понимать контекст и семантику на глубоком уровне, обеспечивая значительно более высокую точность и позволяя осуществлять оперативную, настраиваемую транскрипцию сложного и специализированного контента, превосходя традиционные системы автоматического распознавания речи (ASR).
В: Как Slam-1 обеспечивает высокую точность при работе со специализированной терминологией?
А: Slam-1 использует алгоритмы обработки запросов и свои возможности LLM для динамической адаптации к специфической отраслевой лексике. Это позволяет пользователям настраивать модель для распознавания редких имен, медицинских терминов, юридического жаргона и технических фраз с высокой точностью без необходимости обширного переобучения, что значительно снижает процент пропущенных сущностей.
В: Какие отрасли больше всего выигрывают от возможностей Slam-1?
А: Отрасли, требующие точной и контекстно-зависимой транскрипции, получают огромную пользу. К ним относятся здравоохранение (для медицинской диктовки и медицинских карт пациентов), юриспруденция (для судебных разбирательств и допросов), продажи (для анализа звонков) и технические области (для подробных технических обсуждений и документации). Высокая точность и возможность индивидуальной настройки Slam-1 имеют решающее значение в этих ответственных условиях.
В: Поддерживает ли Slam-1 транскрипцию аудиозаписей с участием нескольких говорящих?
А: Да, Slam-1 оснащен встроенными функциями многоканального воспроизведения и разделения голосов говорящих. Это означает, что он может точно разделять голоса разных говорящих в сложных аудиопотоках и предоставлять временные метки для каждого выступления, что делает его идеальным для совещаний, интервью и других записей с участием нескольких человек.
В: Как Slam-1 решает проблему «галлюцинаций» транскрипции?
А: Многомодальная архитектура Slam-1 разработана для обеспечения устойчивости к галлюцинациям. Обрабатывая одновременно аудио- и языковые данные, она может сопоставлять и проверять информацию из акустических характеристик с семантическим пониманием, значительно снижая вероятность создания неточного или сфабрикованного контента в транскрипциях.
Игровая площадка для ИИ



Авторизоваться