Gemini научился расшифровывать аудио. Оказалось, много кто этого не умеет

Google добавил в Gemini расшифровку аудиофайлов. Бесплатные пользователи ограничены 10 минутами аудио в день, платные подписчики – тремя часами. Мы вот очень удивились, когда поняли, что раньше чат-бот этого не умел.

У Google уже есть мультимодальная модель, которая прекрасно понимает аудио, и собственные TTS сервисы. В том же NotebookLM бесплатно доступна загрузка своих аудио и видео с автоматической расшифровкой. Поэтому удивительным кажется факт, что в Gemini этого не было.

Еще загадочнее выглядит общая картина на рынке чат-ботов. Из всех популярных сервисов аудио нормально смогли расшифровать только Gemini, Perplexity, GigaChat и Qwen (именно в таком порядке по качеству результата). ChatGPT может делать это в API, но не умеет в интерфейсе чата. Очень странно для компании, придумавшей Whisper.

Причём в плане техники и ресурсов это не самая сложная задача. Транскрибировать текст практически в реальном времени сегодня можно локально на ноутбуке или мощном телефоне, а у всех крупных ИИ-провайдеров есть собственные TTS-модели. Да что уж там, почти все чат-боты умеют понимать голос с микрофона через голосовой ввод, Тем более странно, что такая базовая функция, которая отлично ложится на интерфейс чат-бота, в большинстве продуктов отсутствует.
👍 2
🔥 2
7 338

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram