Бэкдор
Видео:
ElevenLabs растоптали: стартап Inworld выпустил Realtime TTS-2 — самый живой генератор голоса в риалтайме. Он умеет в любые речевые нюансы и не звучит, как аудиокнига.
Моделька уже взорвала престижный чарт Artificial Analysis и ворвалась в топ-, обойдя OpenAI, Gemini и ElevenLabs.
• Принципиальная разница — Realtime TTS-2 училась на живых диалогах, а не на аудиокнигах.
• Есть слуховой контекст — модель получает на вход не сухой текст, а аудио предыдущей реплики. Если вы только что пошутили или нагрубили ей, она ответит соответствующе.
• Никаких унылых пресетов «Радость/Грусть». Прямо в тексте пишете: [говори уставшим, но теплым голосом, будто только вернулась домой] — и модель меняет подачу.
• Один и тот же голос говорит на 100+ языках (включая русский) с сохранением тембра. Можно менять язык прямо посреди предложения.
• Описали персонажа промптами — получили уникальный голос или тембр. Рефы необязательны.
• Скорость — менее 200 мс до первого звука. При этом модели достаточно 15 секунд записи голоса для клонирования.
Тестим лучший генератор голоса на данный момент тут.
Бэкдор
Realtime TTS-2 раскатали локально — теперь убийца Eleven Labs доступен даже без интернета. Да, можете юзать вообще без подключений.
Освежим память:
• Клонирует любой голос
по отрезку в 15 секунд.
• Создает
уникальные голоса по описанию.
• Контролирует эмоции, темп и тембр речи.
• Может подстроить речь под контекст переписки.
• Знает
больше 100 языков, в том числе русский, и ловко переключается между ними.
• Задержка минимальна —
до 200 мс.
Пробуем онлайн —
тут.
На локальную версию подаемся —
здесь.
Бэкдор
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram