Запилили открытый учебник по Reinforcement Learning — от жадных бандитов до выравнивания LLM.
Идея — собрать в одну книгу путь от классической теории RL до современных RLHF-пайплайнов и reasoning-моделей. 320 страниц, 17 глав в 4 частях:
1. Основы: бандиты, MDP, DP, Monte Carlo, TD-learning
2. Глубокое RL: DQN, policy gradient, actor-critic, PPO с GAE
3. RLHF и выравнивание: модели вознаграждения, DPO/IPO/KTO/ORPO, GRPO, RLVR
4. Настоящий фронтир уровень: reasoning, chain-of-thought, агентные и мультиагентные системы + их обучение
К каждой главе идет Jupyter-ноутбук (запускается в бесплатном Colab) и задачи с решениями. Внутри - разбор кейсов InstructGPT, Llama 2, Constitutional AI и DeepSeek-R1. Есть черновой перевод на русский.
По материалу уже готовились (и успешно прошли) собесы в топ-компании на hard-RL секции, а скоро его пустят в печать
Если зайдёт — буду благодарен звезде на GitHub ⭐️ так учебник смогут найти новые люди через рекомендации платформы
гитхаб
и перевод на русский
🏔 Сообщество ML-энтузиастов и AI в горах
Телеграм:
@mountainai_info
Сайт:
https://mountainai.tech
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram