



const axios = require('axios').default;
const api = new axios.create({
baseURL: 'https://api.ai.cc/v1',
headers: { Authorization: 'Bearer ' },
});
const main = async () => {
const response = await api.post('/stt', {
model: '#g1_whisper-large',
url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
});
console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};
main();
import requests
headers = {"Authorization": "Bearer "}
def main():
url = f"https://api.ai.cc/v1/stt"
data = {
"model": "#g1_whisper-large",
"url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
}
response = requests.post(url, json=data, headers=headers)
if response.status_code >= 400:
print(f"Error: {response.status_code} - {response.text}")
else:
response_data = response.json()
transcript = response_data["results"]["channels"][0]["alternatives"][0][
"transcript"
]
print("[transcription]", transcript)
if __name__ == "__main__":
main()

Подробная информация о товаре
Понимание модели Whisper от OpenAI: подробный обзор
Он Модель «Шепот»разработано OpenAIWhisper представляет собой ключевой шаг вперед в технологиях автоматического распознавания речи (ASR) и перевода речи. Выпущенные для широкой публики с целью стимулирования исследований в области искусственного интеллекта, модели Whisper разработаны для обеспечения надежности, обобщающей способности и выявления потенциальных искажений в системах ИИ. Они особенно эффективны для распознавания речи на английском языке, но также обладают широкими возможностями многоязычного распознавания.
Важное примечание: Использование моделей Whisper для расшифровки записей, сделанных без согласия собеседника, или в ситуациях принятия решений, сопряженных с высоким риском, крайне не рекомендуется из-за потенциальных неточностей и этических проблем.
Основная информация и эволюция
- Название модели: Шепот
- Разработчик: OpenAI
- История релизов: Оригинальный сериал вышел в сентябре 2022 года, за ним последовали...
большой-v2в декабре 2022 года, ибольшой-v3в ноябре 2023 года. - Тип модели: Последовательное автоматическое распознавание речи (ASR) и модель перевода речи.
Обзор версий модели Whisper
| Размер | Параметры | Относительная скорость |
|---|---|---|
| крошечный | 39 М | ~32x |
| база | 74 М | ~16x |
| маленький | 244 М | ~6x |
| середина | 769 М | ~2x |
| большой | 1550 М | 1x |
Основные характеристики моделей Whisper ⭐
- ✓ Многоязычные возможности: Высокая производительность примерно на 10 языках, продолжается оценка возможности применения в более широких областях, таких как распознавание голоса и классификация дикторов.
- ✓ Надежность: Исключительно устойчив к различным акцентам, диалектам и шумной звуковой обстановке.
- ✓ Универсальное применение: Идеально подходит для транскрипции речи, перевода языков и автоматического создания субтитров.
Предполагаемые варианты использования 🚀
Модели Whisper в первую очередь предназначены для разработчики и исследователиОни являются ценными инструментами для интеграции передовых функций преобразования речи в текст в различные приложения, повышения доступности и поддержки лингвистических исследовательских инициатив.
Технические характеристики ⚙️
Архитектура:
Модель Whisper построена на основе сложной технологии. Архитектура трансформатораДанная архитектура предварительно обучена на обширном наборе данных, включающем как данные для обучения с учителем, так и данные для обучения без учителя, что позволяет эффективно извлекать признаки.
Тренировочные данные:
В процессе обучения использовалось огромное количество аудиоматериалов из интернета — 680 000 часов, а также соответствующие стенограммы. Этот набор данных был тщательно сбалансирован:
- ‣ 65% Аудиозапись на английском языке с английскими транскрипциями.
- ‣ 18% Аудиозаписи на других языках с английскими транскрипциями.
- ‣ 17% Аудиозаписи на других языках с соответствующими транскрипциями на других языках.
В общей сложности обучающие данные охватывали 98 различных языков.
Показатели эффективности и факторы, которые следует учитывать:
Исследования показывают, что модели Whisper в целом превосходят многие существующие системы автоматического распознавания речи, демонстрируя повышенную устойчивость к акцентам, фоновому шуму и специализированной технической терминологии. Они обеспечивают практически самую высокую точность как в распознавании речи, так и в переводе с нескольких языков на английский без предварительного обучения.
Однако производительность может значительно различаться в зависимости от языка, особенно в языках с ограниченными ресурсами или тех, которые изучаются реже. Точность также может отличаться в зависимости от акцента, диалекта и демографических групп. Модели могут иногда генерировать повторяющийся текст, что часто можно компенсировать с помощью таких методов, как поиск по лучу и планирование по температуре.
Порог знаний:
Аудио- и текстовые данные, использованные для обучения моделей Whisper, не содержат информации за период после середины 2022 года.
Использование и интеграция 💻
- Примеры кода/SDK: Разработчики могут получить доступ к функционалу Whisper через доступные SDK и примеры кода для интеграции в свои приложения.
- Учебные пособия: Изучите такие руководства, как... Преобразование речи в текст в мультимодальном режиме на NodeJS для получения практических рекомендаций по внедрению.
- Максимальный размер файла: В настоящее время ограничение на размер обрабатываемых аудиофайлов составляет 2 ГБ.
Поддержка и сообщество 💬
- Общественные ресурсы: Присоединяйтесь к обсуждению и получите поддержку по этому вопросу. API AIML Discord сервер.
- Каналы поддержки: Сообщайте о проблемах или вносите свой вклад напрямую через официальный сайт. Репозиторий OpenAI Whisper на GitHub.
Этические аспекты и лицензирование ⚖️
- ⚠ Этические принципы: OpenAI предоставляет исчерпывающие рекомендации по ответственному использованию, подчеркивая важность конфиденциальности и этичного внедрения технологий искусственного интеллекта.
- ⚠ Снижение предвзятости: В настоящее время предпринимаются постоянные усилия по снижению погрешностей в точности распознавания речи в зависимости от языка, акцента и демографических групп.
- ⓘ Тип лицензии: Модели Whisper выпускаются под брендом... Лицензия MIT, допускающий как коммерческое, так и некоммерческое использование.
Ссылки 📖
- Узнайте больше об основных результатах исследования: Whisper: Надежное распознавание речи с использованием крупномасштабного слабого контроля
Часто задаваемые вопросы (FAQ)
В1: Какова основная цель модели Whisper от OpenAI?
A1: Модель Whisper — это продвинутая модель автоматического распознавания речи и перевода речи, предназначенная в первую очередь для исследований в области искусственного интеллекта, направленных на повышение устойчивости, обобщающей способности и выявление смещений. Она также превосходно справляется с распознаванием английской речи и обладает широкими многоязычными возможностями.
В2: Каковы основные области применения модели Whisper?
A2: Его можно использовать для различных задач, включая транскрипцию речи, перевод устной речи в текст и создание субтитров для аудио- и видеоконтента.
В3: Сколько языков поддерживает Whisper?
A3: Модели были обучены на данных, охватывающих 98 языков, и демонстрируют высокую эффективность примерно в 10 языках, при этом точность для остальных языков варьируется.
Вопрос 4: Существуют ли какие-либо этические проблемы, связанные с использованием Whisper?
A4: Да, OpenAI категорически не рекомендует использовать его для расшифровки записей, сделанных без согласия пользователя, или в процессах принятия решений, сопряженных с высоким риском, из-за потенциальных неточностей и проблем с конфиденциальностью. Пользователям рекомендуется следовать этическим принципам OpenAI.
Вопрос 5: Является ли модель Whisper проектом с открытым исходным кодом?
A5: Да, модели Whisper распространяются под лицензией MIT, что позволяет разработчикам и исследователям использовать их как в коммерческих, так и в некоммерческих целях.
Игровая площадка для ИИ



Авторизоваться