gonzo-обзоры ML статей (@gonzo_ML): Ну и гулять так гулять! Пока по сети гуляет много слухов про скорый уход Лекуна от Цукербе…

Ну и гулять так гулять! Пока по сети гуляет много слухов про скорый уход Лекуна от Цукерберга, Лекун с соавтором выпустил работу про обновлённую JEPA под названием LeJEPA. Модель переосмыслили с точки зрения математики, что позволило сильно упростить архитектуру — никаких больше предикторов, проекторов и разных хаков для устойчивого обучения. Результаты интересные! Кто любит много математики в работе, тому тоже понравится :)

LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics
Randall Balestriero, Yann LeCun
Paper: https://arxiv.org/abs/2511.08544
Code: https://github.com/rbalestr-lab/lejepa

# TL;DR

?? Что сделали?
В статье представлен LeJEPA — новый фреймворк для self-supervised learning (SSL), который заменяет хрупкие эвристики существующих предиктивных архитектур с совместным эмбеддингом (JEPA) строгой теоретической базой. Сначала авторы доказывают, что изотропное гауссовское распределение является единственным оптимальным распределением для эмбеддингов модели, минимизирующим риск предсказания в худшем случае на downstream-задачах. Чтобы обеспечить это свойство, они вводят новую и отлично масштабируемую целевую функцию — регуляризацию SIGReg (Sketched Isotropic Gaussian Regularization). Она использует случайные одномерные проекции и сопоставление характеристических функций для наложения ограничений на многомерное пространство эмбеддингов с линейной сложностью по времени и памяти. Итоговая целевая функция LeJEPA объединяет стандартный лосс предсказания JEPA с SIGReg, что создаёт простой и устойчивый к коллапсу представлений пайплайн обучения, устраняя необходимость в stop-gradients, сетях «учитель-ученик» и других специальных «костылях».

?? Почему это важно?
LeJEPA знаменует собой важный шаг в развитии SSL, переводя область от набора частных R&D-решений и эвристик к разработке систем с доказуемо оптимальным дизайном. Его ключевые нововведения дают три основных преимущества:
1. Надёжность и простота: Фреймворк обеспечивает исключительную стабильность обучения для самых разных архитектур и масштабов с одним-единственным гиперпараметром для настройки компромисса, делая предобучение foundation-моделей более надёжным и доступным.
2. Информативный сигнал для обучения: Впервые в JEPA-архитектурах лосс при обучении сильно коррелирует (до 99%) с качеством на downstream-задачах. Это даёт надёжный сигнал для выбора модели, не требующий размеченных данных.
3. Новая парадигма предобучения: LeJEPA показывает, что основанный на строгих принципах SSL на небольших специализированных датасетах может значительно превосходить трансферное обучение от огромных, универсально обученных frontier-моделей вроде DINOv2/v3. Это возвращает доменно-специфичному SSL статус жизнеспособной и мощной стратегии.

Подробнее: @gonzo_ML_podcasts1358

Обсуждение 3

Вход в экосистему

Ваши настройки cookie