Нейрочеловек (@neuro_man): Клонирование голоса за 3 секунды, синтез речи и «дизайн» голоса в реальном времени

Клонирование голоса за 3 секунды, синтез речи и «дизайн» голоса в реальном времени — встречайте Qwen3-TTS

Ребята из Qwen выложили в открытый доступ «веса» и код семейства моделей Qwen3-TTS — набору нейросетей для синтеза речи. «Семейка» объединяет сразу три функции: генерацию речи из текста, «дизайн» голоса по описанию и клонирование голоса по короткому аудио-референсу.

Казалось бы — есть уже немало подобных моделей, в том числе и открытых, но есть нюансы, которые делают новинку от Qwen весьма и весьма привлекательной:

поддержка русского языка «из коробки»;

задержка потоковой озвучки — всего 97 мс, что вполне годится для разговорных интерфейсов и «живых» ассистентов;

практически мгновенное клонирование голоса (достаточно трёхсекундной записи) с сохранением интонаций, эмоций и особенностей тембра.

Одна из самый классных штук: VoiceDesign — самый показательный компонент линейки, позволяет задавать параметры голоса естественным языком, от тембра и манеры речи до эмоционального рисунка.
В общем, теперь можно озвучивать что угодно, как угодно и максимально быстро.

И не удивляйтесь аудиофейкам, теперь это доступно каждому. Как и видео, в общем-то (-: Будьте бдительны!

@neuro_man

#НейроЧеловек #НейроНовости

Обсуждение 0

Вход в экосистему

Ваши настройки cookie