avatar
Нейрочеловек
@neuro_man
27.01.2026 19:41
Клонирование голоса за 3 секунды, синтез речи и «дизайн» голоса в реальном времени — встречайте Qwen3-TTS

Ребята из Qwen выложили в открытый доступ «веса» и код семейства моделей Qwen3-TTS — набору нейросетей для синтеза речи. «Семейка» объединяет сразу три функции: генерацию речи из текста, «дизайн» голоса по описанию и клонирование голоса по короткому аудио-референсу.

Казалось бы — есть уже немало подобных моделей, в том числе и открытых, но есть нюансы, которые делают новинку от Qwen весьма и весьма привлекательной:
emojiподдержка русского языка «из коробки»;
emojiзадержка потоковой озвучки — всего 97 мс, что вполне годится для разговорных интерфейсов и «живых» ассистентов;
emojiпрактически мгновенное клонирование голоса (достаточно трёхсекундной записи) с сохранением интонаций, эмоций и особенностей тембра.

Одна из самый классных штук: VoiceDesign — самый показательный компонент линейки, позволяет задавать параметры голоса естественным языком, от тембра и манеры речи до эмоционального рисунка.
В общем, теперь можно озвучивать что угодно, как угодно и максимально быстро.

И не удивляйтесь аудиофейкам, теперь это доступно каждому. Как и видео, в общем-то (-: Будьте бдительны!

@neuro_man

#НейроЧеловек #НейроНовости
❤‍🔥 3
👏 3
2
4 203

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram