avatar
Data Science
Переслано от Machinelearning
22.04.2026 22:02
emoji Boxer: модель для подъема 2D-детекций в 3D.

У WildDet3D от Института Аллена появился сосед по задаче: Reality Labs корпорации Марка Цукерберга опубликовала проект с той же целью - перевести 2D-детекции в 3D, но с иным профилем возможностей и открытости.

Boxer - более узкий, но геометрически более строгий инструмент для indoor-сценариев с трекингом и фузией.

Пайплайн трехступенчатый:

детектор OWLv2 находит объекты в кадре;

BoxerNet с DINOv3 под капотом через кросс-внимание поднимает каждую 2D-рамку в 3D, опираясь на внутренние параметры камеры, направление гравитации и глубину;

детекции между кадрами либо сливаются офлайн через венгерский алгоритм, либо ведутся онлайн-трекером.

В отличие от WildDet3D, Boxer работает с видеопоследовательностями: ему нужны 6-DoF позы каждого кадра, гравитация и калибровка.

Взамен он дает то, чего у WildDet3D нет: согласованные сценовые 3D-боксы на уровне всей сцены и онлайн-трекинг с сохранением идентичности объектов.

Boxer поставляется как inference-решение: авторы не планируют выкладывать код обучения и оценки, объясняя это нежеланием тянуть долгосрочную поддержку.

В репозитории - только скрипты запуска и загрузчики датасетов Project Aria (Gen 1 и 2), CA-1M, SUN-RGBD и ScanNet.

Boxer запускается на macOS и Linux. Windows официально не поддерживается


emojiЛицензирование: CC-BY-NC-4.0 License.


emojiСтраница проекта
emojiМодель
emojiArxiv
emojiGitHub


@ai_machinelearning_big_data

#AI #ML #CV #Detection #Boxer #RealityLabs
23 3.1K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram