avatar
gonzo-обзоры ML статей
@gonzo_ML
19.05.2026 00:43
Про разную экономику разметки для реворда и для динамики среды при обучении моделей мира.

On Training in Imagination
Nadav Timor, Ravid Shwartz-Ziv, Micah Goldblum, Yann LeCun, David Harel
Paper: https://arxiv.org/abs/2605.06732v2
Review: https://arxiviq.substack.com/p/on-training-in-imagination

# TL;DR

ЧТО сделали: Авторы предлагают теоретический и эмпирический фреймворк, который разделяет ошибку возврата в model-based RL на независимые компоненты динамики и реворда. Применяя степенные законы скейлинга к этим источникам ошибок, они выводят аналитическое (closed-form) решение для оптимального распределения фиксированного бюджета данных между сбором транзишенов среды и разметкой ревордов.

ПОЧЕМУ это важно: В современных парадигмах вроде RLHF и робототехники разметка ревордов обходится значительно дороже, чем сбор сырых переходов между состояниями среды. Эта работа заменяет эвристический подбор гиперпараметров математически строгой стратегией сбора данных. Она доказывает, что разное поведение скейлинга для моделей динамики и реворда требует фундаментально асимметричного распределения бюджета.

Для практиков: Модели ревордов выучиваются намного быстрее, чем модели динамики. Следовательно, пайплайны сбора данных должны делать сильный упор на транзишены, а не на разметку ревордов. Анализ также показывает: при фиксированном бюджете закупка больших объёмов дешёвых, зашумлённых лейблов математически выгоднее покупки небольшой партии дорогих высококачественных лейблов, при условии, что шум имеет нулевое матожидание.

Считать деньги здесь: @gonzo_ML_podcasts3654
arXiv.org
On Training in Imagination
State-of-the-art model-based reinforcement learning methods train policies on imagined rollouts. These rollouts are trajectories generated by a learned dynamics model and are scored by a learned...
👍 2
🤔 2
21 1.7K
avatar
gonzo-обзоры ML статей
@gonzo_ML
18.05.2026 01:14
Большой обзор про модели мира для роботов.

World Model for Robot Learning: A Comprehensive Survey
Bohan Hou, Gen Li, Jindou Jia, Tuo An, Xinying Guo, Sicong Leng, Haoran Geng, Yanjie Ze, Tatsuya Harada, Philip Torr, Oier Mees, Marc Pollefeys, Zhuang Liu, Jiajun Wu, Pieter Abbeel, Jitendra Malik, Yilun Du, Jianfei Yang
Статья: https://arxiv.org/abs/2605.00080v1
Сайт: https://ntumars.github.io/wm-robot-survey/
Код: https://github.com/NTUMARS/Awesome-World-Model-for-Robotics-Policy
Ревью: https://arxiviq.substack.com/p/world-model-for-robot-learning-a

# TL;DR

ЧТО сделали: Статья предлагает всеобъемлющую, ориентированную на политики управления таксономию интеграции мировых моделей (world models) в обучение роботов. Авторы систематизируют область: от раздельных пайплайнов до единых архитектур с общим бэкбоном, а также по их функциональной роли — от пассивных предсказателей видео до интерактивных симуляторов для обучения с подкреплением.

ПОЧЕМУ это важно: Чисто реактивные Vision-Language-Action (VLA) модели достигают потолка в задачах, требующих рассуждений на длинных горизонтах, и страдают от накопления ошибок. Внедрение предиктивных структур даёт агентам причинно-следственное предвидение, физическую привязку к реальности и возможность генерировать масштабные синтетические данные. Всё это критически необходимо, чтобы вывести воплощённый ИИ на уровень надёжной работы в реальном мире.

Для практиков: Обзор фундаментально переосмысливает пользу мировых моделей в робототехнике. Перцептивный реализм (правдоподобная картинка) вторичен по отношению к согласованности предсказаний с действиями и функциональной полезности. Унифицируя различные архитектуры в рамках единого вероятностного фреймворка, авторы показывают стратегический сдвиг: область уходит от изолированных моделей генерации видео к интернализированным когнитивным механизмам, позволяющим роботам планировать роллауты и исправлять ошибки до совершения физического действия.

Обозревать здесь: @gonzo_ML_podcasts3640
arXiv.org
World Model for Robot Learning: A Comprehensive Survey
World models, which are predictive representations of how environments evolve under actions, have become a central component of robot learning. They support policy learning, planning, simulation,...
👍 6
1
🔥 1
2 40 1.8K
avatar
gonzo-обзоры ML статей
Переслано от канала
17.05.2026 16:22
🔬 Метод

В оригинальной работе метод был из себя весь такой замечательный, но замерялся на сравнительно простых задачах, без интеграций с эффективными фреймворками инференса.

Здесь же решили замерить скорость в работы в vLLM интеграции на широком наборе задач, включая ризонинг.

Рассматривают следующие конфигурации:
👉 bf16 бейзлайн
👉 fp8
👉 TQ k8v4 (6-7 бит на значение)
👉 TQ 4bit-nc
👉 TQ k3v4-nc
👉 TQ 3bit-nc

🧪 Эксперименты

Качество замеряют на Llama-3.3-70B-Instruct, Qwen3-30B-A3B-Instruct-2507, Minimax-2.7.

На long-context retrieval (MRCR) bf16/fp8/2 более высокобитных TurboQuant дают примерно одинаковое качество. Более агрессивные TurboQuant квантизации заметно просаживают.

На ризонинге fp8/k8v4 сохраняют 98% качества, TQ 4bit-nc 96%, а более агрессивные квантизации уже сильно хуже.

В плане экономии памяти fp8 экономит вдвое по сравнению с bf16, TQ k8v4 2.3-2.4 раза, TQ 4bit-nc - 3.1 - 3.4 раза, TQ 3bit-nc до 4-х раз.

На Llama fp8 дает почти двухкратное ускорение инференса, но почти без разницы для Qwen3 MoE. TQ замедляет на 20-40% инференс на Llama, и на 40-60% на Qwen3.

Throughput у FP8/BF16 примерно одинаковый, TQ уменьшает его до 66-80% в зависимости от модели и конфигурации квантизации.

💡 Выводы

📌 FP8 все еще остается хорошим бейзлайном по соотношению качество / экономия.
📌 TurboQuant k8v4 не дает существенной экономии против FP8, но замедляет инференс.
📌 TurboQuant 4bit-nc неплох как баланс между сжатием / качеством, если скорость не критична.
📌 Более агрессивные квантизации бесполезны.

Итого, TurboQuant не то чтобы особо практически полезная шняга.
🤣 7
3
🤔 1
17 1.8K
avatar
gonzo-обзоры ML статей
Переслано от канала
17.05.2026 16:22
A First Comprehensive Study of TurboQuant: Accuracy and Performance
[Блог]

Казалось бы, уже стоило бы забить на этот несчастный TurboQuant, но кому-то он все еще не дает покоя. И команда из Red Hat AI 🤠 провела систематическое исследование нашумевшего метода, фокусируясь на производительности и качестве работы на задачах.
11 1.6K
avatar
gonzo-обзоры ML статей
@gonzo_ML
17.05.2026 16:01
Этой работе уже год, но мы её не разбирали, а она неожиданно выстрелила в этом году перед ICLR.

Многомерные пространства рулят, а идея со случайным вращением просто красивая. И вообще случайные вектора — это сила.

Пользуясь случаем хочу порекомендовать книгу "High-Dimensional Probability" Романа Вершинина про многомерную вероятность, в этом году вышло второе издание. Доступно на сайте автора: https://www.math.uci.edu/~rvershyn/papers/HDP-book/HDP-2.pdf (но я как обычно купил бумажную копию).

Курс лекций Романа также выложен на ютуб: https://www.youtube.com/playlist?list=PLPjEEUWIWhQV7X6dXfrVP3w0KBBLBVJ0j

TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
Amir Zandieh, Majid Daliri, Majid Hadian, Vahab Mirrokni
Paper: https://arxiv.org/abs/2504.19874v1
Review: https://arxiviq.substack.com/p/turboquant-online-vector-quantization
Code: N/A + Unofficial
Model: N/A

# TL;DR

ЧТО сделали: Исследователи из Google и NYU представили TurboQuant — двухэтапный алгоритм векторного квантования, не зависящий от данных (data-oblivious). Он достигает почти оптимальных показателей искажения за счёт случайного вращения многомерных векторов для создания стабильного бета-распределения, применения оптимального скалярного квантования и использования однобитного скетча на остатках для гарантии несмещённой оценки скалярного произведения.

ПОЧЕМУ это важно: Для AI-инфраструктуры, упирающейся в память, традиционная офлайн-предобработка и зависящие от данных кодовые книги (как в k-means) создают серьёзное узкое горлышко.

Для практиков: Алгоритм работает "из коробки" как векторизованная альтернатива индексации с нулевым оверхедом, позволяя агрессивно сжимать KV-кэши LLM и масштабные векторные базы данных без просадок качества в long-context задачах или RAG-пайплайнах.

Квантовать тут: @gonzo_ML_podcasts3627
Cambridge Core
High-Dimensional Probability
Cambridge Core - Communications and Signal Processing - High-Dimensional Probability
👍 6
1
👎 1
3 56 1.8K