Вне

Чат

запрещать

Шепот

API Whisper от OpenAI предлагает мощные многоязычные возможности преобразования речи в текст, обученные на разнообразных данных и доступные для коммерческого использования бесплатно под лицензией MIT.

Новые участники получат бесплатные токены номиналом 1 доллар.

Text to Speech

Javascript

Python

                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_whisper-large',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();

                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_whisper-large",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()

Docs

Более 300 моделей ИИ для OpenClaw и агентов ИИ.

Сэкономьте 20% на расходах и получите бесплатные токены на 1 доллар.

Получить ключ API Изучите модели

Шепот

Подробная информация о товаре

Понимание модели Whisper от OpenAI: подробный обзор

Он Модель «Шепот»разработано OpenAIWhisper представляет собой ключевой шаг вперед в технологиях автоматического распознавания речи (ASR) и перевода речи. Выпущенные для широкой публики с целью стимулирования исследований в области искусственного интеллекта, модели Whisper разработаны для обеспечения надежности, обобщающей способности и выявления потенциальных искажений в системах ИИ. Они особенно эффективны для распознавания речи на английском языке, но также обладают широкими возможностями многоязычного распознавания.

Важное примечание: Использование моделей Whisper для расшифровки записей, сделанных без согласия собеседника, или в ситуациях принятия решений, сопряженных с высоким риском, крайне не рекомендуется из-за потенциальных неточностей и этических проблем.

Основная информация и эволюция

Название модели: Шепот
Разработчик: OpenAI
История релизов: Оригинальный сериал вышел в сентябре 2022 года, за ним последовали... большой-v2 в декабре 2022 года, и большой-v3 в ноябре 2023 года.
Тип модели: Последовательное автоматическое распознавание речи (ASR) и модель перевода речи.

Обзор версий модели Whisper

Размер	Параметры	Относительная скорость
крошечный	39 М	~32x
база	74 М	~16x
маленький	244 М	~6x
середина	769 М	~2x
большой	1550 М	1x

Основные характеристики моделей Whisper ⭐

✓ Многоязычные возможности: Высокая производительность примерно на 10 языках, продолжается оценка возможности применения в более широких областях, таких как распознавание голоса и классификация дикторов.
✓ Надежность: Исключительно устойчив к различным акцентам, диалектам и шумной звуковой обстановке.
✓ Универсальное применение: Идеально подходит для транскрипции речи, перевода языков и автоматического создания субтитров.

Предполагаемые варианты использования 🚀

Модели Whisper в первую очередь предназначены для разработчики и исследователиОни являются ценными инструментами для интеграции передовых функций преобразования речи в текст в различные приложения, повышения доступности и поддержки лингвистических исследовательских инициатив.

Технические характеристики ⚙️

Архитектура:

Модель Whisper построена на основе сложной технологии. Архитектура трансформатораДанная архитектура предварительно обучена на обширном наборе данных, включающем как данные для обучения с учителем, так и данные для обучения без учителя, что позволяет эффективно извлекать признаки.

Тренировочные данные:

В процессе обучения использовалось огромное количество аудиоматериалов из интернета — 680 000 часов, а также соответствующие стенограммы. Этот набор данных был тщательно сбалансирован:

‣ 65% Аудиозапись на английском языке с английскими транскрипциями.
‣ 18% Аудиозаписи на других языках с английскими транскрипциями.
‣ 17% Аудиозаписи на других языках с соответствующими транскрипциями на других языках.

В общей сложности обучающие данные охватывали 98 различных языков.

Показатели эффективности и факторы, которые следует учитывать:

Исследования показывают, что модели Whisper в целом превосходят многие существующие системы автоматического распознавания речи, демонстрируя повышенную устойчивость к акцентам, фоновому шуму и специализированной технической терминологии. Они обеспечивают практически самую высокую точность как в распознавании речи, так и в переводе с нескольких языков на английский без предварительного обучения.

Однако производительность может значительно различаться в зависимости от языка, особенно в языках с ограниченными ресурсами или тех, которые изучаются реже. Точность также может отличаться в зависимости от акцента, диалекта и демографических групп. Модели могут иногда генерировать повторяющийся текст, что часто можно компенсировать с помощью таких методов, как поиск по лучу и планирование по температуре.

Порог знаний:

Аудио- и текстовые данные, использованные для обучения моделей Whisper, не содержат информации за период после середины 2022 года.

Использование и интеграция 💻

Примеры кода/SDK: Разработчики могут получить доступ к функционалу Whisper через доступные SDK и примеры кода для интеграции в свои приложения.
Учебные пособия: Изучите такие руководства, как... Преобразование речи в текст в мультимодальном режиме на NodeJS для получения практических рекомендаций по внедрению.
Максимальный размер файла: В настоящее время ограничение на размер обрабатываемых аудиофайлов составляет 2 ГБ.

Поддержка и сообщество 💬

Общественные ресурсы: Присоединяйтесь к обсуждению и получите поддержку по этому вопросу. Discord AIML API сервер.
Каналы поддержки: Сообщайте о проблемах или вносите свой вклад напрямую через официальный сайт. Репозиторий OpenAI Whisper на GitHub.

Этические аспекты и лицензирование ⚖️

⚠ Этические принципы: OpenAI предоставляет исчерпывающие рекомендации по ответственному использованию, подчеркивая важность конфиденциальности и этичного внедрения технологий искусственного интеллекта.
⚠ Снижение предвзятости: В настоящее время предпринимаются постоянные усилия по снижению погрешностей в точности распознавания речи в зависимости от языка, акцента и демографических групп.
ⓘ Тип лицензии: Модели Whisper выпускаются под брендом... Лицензия MIT, допускающий как коммерческое, так и некоммерческое использование.

Ссылки 📖

Узнайте больше об основных результатах исследования: Whisper: Надежное распознавание речи с использованием крупномасштабного слабого контроля

Часто задаваемые вопросы (FAQ)

В1: Какова основная цель модели Whisper от OpenAI?
A1: Модель Whisper — это продвинутая модель автоматического распознавания речи и перевода речи, предназначенная в первую очередь для исследований в области искусственного интеллекта, направленных на повышение устойчивости, обобщающей способности и выявление смещений. Она также превосходно справляется с распознаванием английской речи и обладает широкими многоязычными возможностями.

В2: Каковы основные области применения модели Whisper?
A2: Его можно использовать для различных задач, включая транскрипцию речи, перевод устной речи в текст и создание субтитров для аудио- и видеоконтента.

В3: Сколько языков поддерживает Whisper?
A3: Модели были обучены на данных, охватывающих 98 языков, и демонстрируют высокую эффективность примерно в 10 языках, при этом точность для остальных языков варьируется.

Вопрос 4: Существуют ли какие-либо этические проблемы, связанные с использованием Whisper?
A4: Да, OpenAI категорически не рекомендует использовать его для расшифровки записей, сделанных без согласия пользователя, или в процессах принятия решений, сопряженных с высоким риском, из-за потенциальных неточностей и проблем с конфиденциальностью. Пользователям рекомендуется следовать этическим принципам OpenAI.

Вопрос 5: Является ли модель Whisper проектом с открытым исходным кодом?
A5: Да, модели Whisper распространяются под лицензией MIT, что позволяет разработчикам и исследователям использовать их как в коммерческих, так и в некоммерческих целях.

Игровая площадка для ИИ

Перед интеграцией протестируйте все модели API в тестовой среде. Мы предоставляем более 300 моделей для интеграции в ваше приложение.

Попробуйте бесплатно

Более 300 моделей ИИ для
OpenClaw и агенты искусственного интеллекта

Сэкономьте 20% на расходах