Ну и гулять так гулять! Пока по сети гуляет много слухов про скорый уход Лекуна от Цукерберга, Лекун с соавтором выпустил работу про обновлённую JEPA под названием LeJEPA. Модель переосмыслили с точки зрения математики, что позволило сильно упростить архитектуру — никаких больше предикторов, проекторов и разных хаков для устойчивого обучения. Результаты интересные! Кто любит много математики в работе, тому тоже понравится :)
LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics
Randall Balestriero, Yann LeCun
Paper: https://arxiv.org/abs/2511.08544
Code: https://github.com/rbalestr-lab/lejepa
# TL;DR
?? Что сделали?
В статье представлен LeJEPA — новый фреймворк для self-supervised learning (SSL), который заменяет хрупкие эвристики существующих предиктивных архитектур с совместным эмбеддингом (
JEPA) строгой теоретической базой. Сначала авторы доказывают, что
изотропное гауссовское распределение является единственным оптимальным распределением для эмбеддингов модели, минимизирующим риск предсказания в худшем случае на downstream-задачах. Чтобы обеспечить это свойство, они вводят новую и отлично масштабируемую целевую функцию —
регуляризацию SIGReg (Sketched Isotropic Gaussian Regularization). Она использует случайные одномерные проекции и сопоставление характеристических функций для наложения ограничений на многомерное пространство эмбеддингов с линейной сложностью по времени и памяти. Итоговая целевая функция LeJEPA объединяет стандартный лосс предсказания JEPA с SIGReg, что создаёт простой и устойчивый к коллапсу представлений пайплайн обучения, устраняя необходимость в stop-gradients, сетях «учитель-ученик» и других специальных «костылях».
?? Почему это важно?
LeJEPA знаменует собой важный шаг в развитии SSL, переводя область от набора частных R&D-решений и эвристик к разработке систем с доказуемо оптимальным дизайном. Его ключевые нововведения дают три основных преимущества:
1.
Надёжность и простота: Фреймворк обеспечивает исключительную стабильность обучения для самых разных архитектур и масштабов с одним-единственным гиперпараметром для настройки компромисса, делая предобучение foundation-моделей более надёжным и доступным.
2.
Информативный сигнал для обучения: Впервые в JEPA-архитектурах лосс при обучении сильно коррелирует (до 99%) с качеством на downstream-задачах. Это даёт надёжный сигнал для выбора модели, не требующий размеченных данных.
3.
Новая парадигма предобучения: LeJEPA показывает, что основанный на строгих принципах SSL на небольших специализированных датасетах может значительно превосходить трансферное обучение от огромных, универсально обученных frontier-моделей вроде DINOv2/v3. Это возвращает доменно-специфичному SSL статус жизнеспособной и мощной стратегии.
Подробнее:
@gonzo_ML_podcasts1358
Обсуждение 3
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram