avatar
(sci)Berloga Всех Наук и Технологий
Переслано от канала
06.05.2026 10:39
Запилили открытый учебник по Reinforcement Learning — от жадных бандитов до выравнивания LLM.

Идея — собрать в одну книгу путь от классической теории RL до современных RLHF-пайплайнов и reasoning-моделей. 320 страниц, 17 глав в 4 частях:

1. Основы: бандиты, MDP, DP, Monte Carlo, TD-learning
2. Глубокое RL: DQN, policy gradient, actor-critic, PPO с GAE
3. RLHF и выравнивание: модели вознаграждения, DPO/IPO/KTO/ORPO, GRPO, RLVR
4. Настоящий фронтир уровень: reasoning, chain-of-thought, агентные и мультиагентные системы + их обучение

К каждой главе идет Jupyter-ноутбук (запускается в бесплатном Colab) и задачи с решениями. Внутри - разбор кейсов InstructGPT, Llama 2, Constitutional AI и DeepSeek-R1. Есть черновой перевод на русский.

По материалу уже готовились (и успешно прошли) собесы в топ-компании на hard-RL секции, а скоро его пустят в печать

Если зайдёт — буду благодарен звезде на GitHub ⭐️ так учебник смогут найти новые люди через рекомендации платформы

гитхаб
и перевод на русский


🏔 Сообщество ML-энтузиастов и AI в горах
Телеграм: @mountainai_info
Сайт: https://mountainai.tech
🔥 38
👍 13
🎉 5
200 1.8K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram