qwen-bg
max-ico04
В
Вне
max-ico02
Чат
max-ico03
запрещать
Дипграм Нова-2
API Deepgram Nova-2 отличается повышенной точностью, поддержкой нескольких языков и быстрой транскрипцией в различных приложениях.
Новые участники получат бесплатные токены номиналом 1 доллар.
Text to Speech
                                        const axios = require('axios').default;

const api = new axios.create({
  baseURL: 'https://api.ai.cc/v1',
  headers: { Authorization: 'Bearer ' },
});

const main = async () => {
  const response = await api.post('/stt', {
    model: '#g1_nova-2-general',
    url: 'https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3',
  });

  console.log('[transcription]', response.data.results.channels[0].alternatives[0].transcript);
};

main();
                                
                                        import requests


headers = {"Authorization": "Bearer "}


def main():
    url = f"https://api.ai.cc/v1/stt"
    data = {
        "model": "#g1_nova-2-general",
        "url": "https://audio-samples.github.io/samples/mp3/blizzard_unconditional/sample-0.mp3",
    }

    response = requests.post(url, json=data, headers=headers)

    if response.status_code >= 400:
        print(f"Error: {response.status_code} - {response.text}")
    else:
        response_data = response.json()
        transcript = response_data["results"]["channels"][0]["alternatives"][0][
            "transcript"
        ]
        print("[transcription]", transcript)

if __name__ == "__main__":
    main()
Docs

Один API, более 300 моделей ИИ.

Сэкономьте 20% на расходах и получите бесплатные токены на 1 доллар.
qwenmax-bg
изображение
Дипграм Нова-2

Подробная информация о товаре

🚀 Откройте для себя Deepgram Nova-2: будущее преобразования речи в текст.

Deepgram Nova-2 — это революционная модель автоматического распознавания речи (ASR), разработанная компанией... Дипграмм Обеспечивает беспрецедентную точность как для предварительно записанного, так и для потокового аудио в реальном времени на английском языке. Устанавливает новый стандарт в отрасли, предлагая значительный скачок в производительности по сравнению со своими предшественниками и конкурентами.

Основные характеристики модели:

  • Название модели: Нова-2
  • Разработчик: Дипграмм
  • Тип модели: Автоматическое распознавание речи (ASR)

Преимущество производительности:

  • на 18% точнее чем предыдущие модели Nova.
  • 🎯 Предлагает Относительное улучшение WER на 36%. через OpenAI Whisper (большой).

💡 Основные характеристики Нова-2

Nova-2 разработана с учетом множества функций, призванных удовлетворить жесткие требования современных приложений для обработки речи:

  • 🌐 Многоязычные возможности: Расширьте свою аудиторию благодаря поддержке различных языков.
  • 📈 Высокая точность и снижение частоты ошибок распознавания слов (WER): Достигните превосходного качества транскрипции.
  • Быстрое время вывода результатов: Быстрая обработка аудиоданных для приложений реального времени.
  • 💰 Конкурентные цены: Воспользуйтесь преимуществами экономически эффективных решений для транскрипции.

🎯 Универсальные области применения и специализированные модели

Deepgram Nova-2 разработан для широкого спектра голосовых приложений, от транскрипции в реальном времени до анализа медиаконтента. Для удовлетворения разнообразных потребностей отрасли Nova-2 предлагает несколько высокооптимизированных версий:

Общие и базовые модели:

  • нова-2 или nova-2-general: Универсальная модель для различных областей применения.
  • nova-2-conversationalai: Идеально подходит для разговорного ИИ.
  • nova-2-video: Оптимизировано для видеоконтента.

Отраслевые оптимизации:

  • nova-2-meeting: Предназначено для стенографирования совещаний.
  • nova-2-phonecall: Специально для расшифровки телефонных разговоров.
  • nova-2-finance: Адаптировано для финансового контекста.
  • nova-2-voicemail: Идеально подходит для голосовых сообщений.
  • nova-2-medical: Специализируется на медицинской транскрипции, достигая высоких результатов. Точность на 16% выше. Для медицинских терминов скорость обработки составляет 120-180 слов в минуту. Узнайте больше об искусственном интеллекте в здравоохранении. здесь.
  • nova-2-drivethru: Разработано для систем обслуживания автомобилей.
  • nova-2-automotive: Разработано для использования в автомобильной промышленности.

⚙️ Технические характеристики ракеты «Нова-2»

Архитектура:

Нова-2 построена на основе передовая архитектура на основе трансформаторовЭта усовершенствованная конструкция значительно повышает производительность, что приводит к... Снижение частоты ошибок распознавания слов (WER) на 18,4%. По сравнению с Nova-1. Эти улучшения имеют решающее значение для точной транскрипции сущностей (таких как имена собственные), пунктуации и заглавных букв как в живом, так и в предварительно записанном аудио.

Тренировочные данные:

Модель была обучена на самом обширном и разнообразном на сегодняшний день наборе данных Deepgram, включающем почти 6 миллионов ресурсов и 47 миллиардов токеновЭтот обширный набор данных обогащен всесторонней коллекцией высококачественных транскрипций человеческого голоса, что обеспечивает надежное и точное обучение.

Показатели производительности и скорость:

Модель Nova-2 демонстрирует значительные улучшения показателя WER по сравнению с предыдущими моделями и конкурентами. Кроме того, скорость — решающее преимущество.: Nova-2 достигла медианного времени вывода результатов всего лишь 29,8 секунд на каждый час записанного аудиоЭто делает его В 5-40 раз быстрее чем другие поставщики, предлагающие возможности диакритического знака.

🛠️ Как использовать Deepgram Nova-2

Примеры кода и SDK:

Пример интеграции: Для общих задач транскрипции используйте фрагмент `voice.stt` с `data-model="#g1_nova-2-general"`.

Учебные пособия:

Узнайте больше с помощью таких руководств, как: Преобразование речи в текст в мультимодальном режиме на NodeJS

Технические ограничения:

  • 💾 Максимальный размер файла: 2 ГБ
  • ⏱️ Ограничения скорости: 100 одновременных запросов

⚖️ Этические аспекты проекта «Нова-2»

Компания Deepgram привержена ответственному развитию искусственного интеллекта. Nova-2 придерживается строгих этических принципов:

  • 🔒 Конфиденциальность и этичный ИИ: Строгое соблюдение этических принципов разработки ИИ, с акцентом на конфиденциальность данных и ответственное использование.
  • 🌍 Снижение предвзятости: Постоянные усилия по обеспечению объективности и точности применительно к различным речевым особенностям, акцентам и демографическим характеристикам.

❓ Часто задаваемые вопросы (FAQ) о Deepgram Nova-2

В: Что такое Deepgram Nova-2?

A: Deepgram Nova-2 — это передовая модель автоматического распознавания речи (ASR), разработанная для высокоточной транскрипции речи в текст как предварительно записанных, так и потоковых аудиофайлов на английском языке.

В: Как Nova-2 соотносится с другими моделями распознавания речи, такими как OpenAI Whisper?

A: Nova-2 демонстрирует повышение точности на 18% по сравнению с предыдущими моделями Deepgram Nova и обеспечивает значительное улучшение относительного показателя ошибок распознавания слов (WER) на 36% по сравнению с OpenAI Whisper (large).

В: Существуют ли специализированные версии Nova-2 для конкретных отраслей промышленности?

A: Да, Deepgram Nova-2 поставляется с несколькими оптимизированными версиями для конкретных сценариев использования, включая `nova-2-meeting`, `nova-2-phonecall`, `nova-2-finance`, `nova-2-medical` и другие, каждая из которых разработана для обеспечения максимальной точности в своей области.

В: Каковы основные технические преимущества Нова-2?

A: Nova-2 использует передовую архитектуру на основе трансформеров, что приводит к снижению WER на 18,4% по сравнению с Nova-1. Она была обучена на обширном наборе данных из 47 миллиардов токенов и предлагает чрезвычайно быстрое время вывода, в 5-40 раз быстрее, чем конкуренты для обработки аудиоданных в дневнике.

В: Как Deepgram решает этические проблемы, связанные с Nova-2?

A: Deepgram уделяет приоритетное внимание этичной разработке ИИ, сосредоточившись на снижении предвзятости, обеспечении конфиденциальности и поддержании справедливости и точности при обработке различных речевых паттернов и акцентов посредством постоянных усилий и соблюдения строгих правил.

Игровая площадка для ИИ

Перед интеграцией протестируйте все модели API в тестовой среде. Мы предоставляем более 300 моделей для интеграции в ваше приложение.
Попробуйте бесплатно
api-right-1
модель-bg02-1

Один API
Более 300 моделей ИИ

Сэкономьте 20% на расходах