Голосовой ИИ научился не молчать в трубку
Пару лет назад разработчики решили сделать ИИ-ассистентов похожими на людей. Сервисы вроде
Sesame AI научились вздыхать, запинаться, причмокивать и имитировать другие звуки. Вышло настолько натурально, что OpenAI даже отложили релиз аналогичной модели – официально из-за «улучшения способности отклонять нежелательный контент», неофициально – из-за роликов со стонущей, кричащей и правдоподобно имитирующей разговор по телефону нейросетью. Её по итогу отучили это делать (чем, вероятно, очень расстроили мошенников). После чего поняли, что гораздо безопаснее и логичнее делать не цифровую копию человека, которая дышит и заикается, а предсказуемый инструмент для бизнеса. Для этого работать надо не над натуральностью голоса, а над улучшением самого процесса общения.
Именно по этому пути пошла OpenAI с новой моделью GPT-Realtime-2. Она пытается убрать старую проблему голосовых ассистентов, когда после команды пользователь стоит в тишине и не понимает, работает система или зависла. Теперь, пока бот идёт в CRM или смотрит календарь, он может сказать «секунду, сейчас посмотрю» и объяснить, что делает. Голосовая модель учится одновременно вести разговор, рассуждать и обращаться к внешним системам. Если ИИ перебить и на ходу поменять задачу, он замолкнет, выслушает и перестроится. Для длинных сценариев OpenAI также увеличила контекстное окно модели с 32 до 128 тысяч токенов. По замыслу компании, разговор должен перестать ощущаться как ожидание ответа от робота.
Параллельно OpenAI обновила ещё два продукта. Модель для синхронного перевода GPT‑Realtime‑Translate теперь продолжает работать, если спикер в середине предложения переходит на другой язык. А алгоритм транскрибации Whisper, которого в последнее время начали теснить с рынка конкуренты вроде Nvidia Parakeet, получил потоковую расшифровку звука в реальном времени .
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram