avatar
Институт AIRI
@airi_research_institute
04.08.2025 13:50
Исследователи из AIRI и МФТИ создали новый метод, который расширяет возможности больших языковых моделей при работе с трехмерным пространством emoji

Существующие подходы представления 3D-сцены в LLM не позволяют учитывать семантические связи между объектами, что снижает их способность корректно решать задачи на понимание и описание, а также отвечать на вопросы про сцену. Новая архитектура, названная 3DGraphLLM, позволяет улавливать смысловые связи между объектами. Это положительно сказывается на качестве восприятия языковыми моделями трёхмерных сцен.

Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM. В экспериментах с 12 подходами на основе больших языковых моделей 3DGraphLLM также занял лидирующую позицию. Научная работа принята к публикации на конференции ICCV, а сама нейросетевая модель уже прошла апробацию на данных, собранных в Центре робототехники Сбера.

Arxiv | GitHub | HuggingFace | Хабр
? 46
56 6.3K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram