Приятно смотреть, насколько продвинулось транскрибирование и расшифровка речи благодаря мультимодальным моделям. Вполне прикладной кейс – нужно было распознать длинную запись с диктофона с нескольких сессий на конференции. Запись шумная, голос тихий, у людей английский не родной, поэтому они говорят на нём с акцентом и периодически переключаются на индонезийский. Встроенная расшифровка диктофона справляется с таким аудио очень плохо, что в целом можно понять.

А вот Gemini не подвёл – LLM, в отличие от других сервисов, смогла не просто узнать слова, но и «обработать текст»: отформатировать, автоматически определить и расставить имена спикеров на основе контекста (свечку не держали, но в теории – ещё и сделать уточняющий запрос в интернете и подтвердить их личность), подписать участки с интершумом и даже перевести фразы на индонезийском. И это всё без уточнений или сложных инструкций.

Мы уже делали сравнение этой функции в разных сервисах. Пока Gemini, по ощущениям, всё ещё лидирует.
? 6
3 6 212

Обсуждение 3

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram