Клонирование голоса за 3 секунды, синтез речи и «дизайн» голоса в реальном времени — встречайте Qwen3-TTS
Ребята из Qwen выложили в открытый доступ «веса» и код семейства моделей Qwen3-TTS — набору нейросетей для синтеза речи. «Семейка» объединяет сразу три функции: генерацию речи из текста, «дизайн» голоса по описанию и клонирование голоса по короткому аудио-референсу.
Казалось бы — есть уже немало подобных моделей, в том числе и открытых, но есть нюансы, которые делают новинку от Qwen весьма и весьма привлекательной:

поддержка русского языка «из коробки»;

задержка потоковой озвучки — всего 97 мс, что вполне годится для разговорных интерфейсов и «живых» ассистентов;

практически мгновенное клонирование голоса (достаточно трёхсекундной записи) с сохранением интонаций, эмоций и особенностей тембра.
Одна из самый классных штук: VoiceDesign — самый показательный компонент линейки, позволяет задавать параметры голоса естественным языком, от тембра и манеры речи до эмоционального рисунка.
В общем, теперь можно озвучивать что угодно, как угодно и максимально быстро.
И не удивляйтесь аудиофейкам, теперь это доступно каждому. Как и видео, в общем-то (-: Будьте бдительны!
@neuro_man
#НейроЧеловек #НейроНовости
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram