avatar
Блуждающий нерв
@dtulinov
01.05.2023 20:01
Испытуемый смотрит мульт, с его головы считывают фМРТ, и по данным из мозга языковая модель реконструирует содержание видео, излагая его текстом.

То есть это не video-2-text, а сложнее и интереснее: Video-to-Brain-to-Text.

Суть контента пока улавливает лишь в общих чертах, но оцените сложность задачи, учитывая еще и низкое временное разрешение фМРТ (чудо, что удалось). Как proof of concept весьма впечатляет, причем так же работает еще и с аудио, и с внутренней речью. Генеративный ИИ усиливает возможности ИМК, так как семантику можно выразить по-разному, и не надо мучиться с дословной расшифровкой. Это касается как текста, так и видео.

Вышла, наконец, рецензируемая публикация.
28 248 9.8K

Обсуждение 28

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram