Не баг, а фича (@bugnotfeature): ⚡️ ХОРОНИМ ElevenLabs вместе со стартапом Inworld — ребята дропнули Realtime TTS-2 и это с…

ХОРОНИМ ElevenLabs вместе со стартапом Inworld — ребята дропнули Realtime TTS-2 и это самый живой генератор голоса. Умеет в ЛЮБУЮ речь и не звучит, как аудиокнига.

Моделька уже вошла в ТОП-1 чарта лучших Artificial Analysis, обойдя OpenAI, Gemini и ElevenLabs. Здесь:

Realtime TTS-2 училась на живых диалогах, а не на аудиокнигах;
Модель получает на вход не сухой текст, а аудио предыдущей реплики: пошутили или нагрубили ей — ответит соответствующе;
Никаких унылых пресетов. Пишем: [говори уставшим, но теплым голосом, будто только вернулась домой] — и модель меняет подачу;
Говорит на 100+ языках (включая русский) с сохранением тембра. Можно менять язык прямо посреди предложения;
Описали персонажа промптами — получили уникальный голос;
Модели достаточно 15 секунд записи голоса для клонирования.

Лучший генератор голоса — тут.

Не баг, а фича

Обсуждение 0

Вход в экосистему

Ваши настройки cookie