ХОРОНИМ ElevenLabs вместе со стартапом Inworld — ребята дропнули Realtime TTS-2 и это самый живой генератор голоса. Умеет в ЛЮБУЮ речь и не звучит, как аудиокнига.
Моделька уже
вошла в ТОП-1 чарта лучших Artificial Analysis, обойдя OpenAI, Gemini и ElevenLabs. Здесь:
Realtime TTS-2 училась на живых диалогах, а не на аудиокнигах;
Модель получает на вход не сухой текст, а
аудио предыдущей реплики: пошутили или нагрубили ей — ответит соответствующе;
Никаких унылых пресетов. Пишем:
[говори уставшим, но теплым голосом, будто только вернулась домой] — и модель меняет подачу;
Говорит на 100+ языках (включая русский) с сохранением тембра. Можно менять язык прямо посреди предложения;
Описали персонажа промптами — получили уникальный голос;
Модели
достаточно 15 секунд записи голоса для клонирования.
Лучший генератор голоса —
тут.
Не баг, а фича
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram