Испытуемый смотрит мульт, с его головы считывают фМРТ, и по данным из мозга языковая модель реконструирует содержание видео, излагая его текстом.
То есть это не video-2-text, а сложнее и интереснее: Video-to-Brain-to-Text.
Суть контента пока улавливает лишь в общих чертах, но оцените сложность задачи, учитывая еще и низкое временное разрешение фМРТ (чудо, что удалось). Как
proof of concept весьма впечатляет, причем так же работает еще и с аудио, и с внутренней речью. Генеративный ИИ усиливает возможности ИМК, так как семантику можно выразить по-разному, и не надо мучиться с дословной расшифровкой. Это касается как текста, так и видео.
Вышла, наконец,
рецензируемая публикация.
Обсуждение 28
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram