Институт AIRI (@airi_research_institute): Исследователи из AIRI и МФТИ создали новый метод, который расширяет возможности больших яз…

Исследователи из AIRI и МФТИ создали новый метод, который расширяет возможности больших языковых моделей при работе с трехмерным пространством

Существующие подходы представления 3D-сцены в LLM не позволяют учитывать семантические связи между объектами, что снижает их способность корректно решать задачи на понимание и описание, а также отвечать на вопросы про сцену. Новая архитектура, названная 3DGraphLLM, позволяет улавливать смысловые связи между объектами. Это положительно сказывается на качестве восприятия языковыми моделями трёхмерных сцен.

Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM. В экспериментах с 12 подходами на основе больших языковых моделей 3DGraphLLM также занял лидирующую позицию. Научная работа принята к публикации на конференции ICCV, а сама нейросетевая модель уже прошла апробацию на данных, собранных в Центре робототехники Сбера.

Arxiv | GitHub | HuggingFace | Хабр

Обсуждение 0

Пожаловаться

Обсуждение 0

Вход в экосистему

Ваши настройки cookie