(sci)Berloga Всех Наук и Технологий (@sberlogabig): Запилили открытый учебник по Reinforcement Learning — от жадных бандитов до выравнивания L…

Запилили открытый учебник по Reinforcement Learning — от жадных бандитов до выравнивания LLM.

Идея — собрать в одну книгу путь от классической теории RL до современных RLHF-пайплайнов и reasoning-моделей. 320 страниц, 17 глав в 4 частях:

1. Основы: бандиты, MDP, DP, Monte Carlo, TD-learning
2. Глубокое RL: DQN, policy gradient, actor-critic, PPO с GAE
3. RLHF и выравнивание: модели вознаграждения, DPO/IPO/KTO/ORPO, GRPO, RLVR
4. Настоящий фронтир уровень: reasoning, chain-of-thought, агентные и мультиагентные системы + их обучение

К каждой главе идет Jupyter-ноутбук (запускается в бесплатном Colab) и задачи с решениями. Внутри - разбор кейсов InstructGPT, Llama 2, Constitutional AI и DeepSeek-R1. Есть черновой перевод на русский.

По материалу уже готовились (и успешно прошли) собесы в топ-компании на hard-RL секции, а скоро его пустят в печать

Если зайдёт — буду благодарен звезде на GitHub ⭐️ так учебник смогут найти новые люди через рекомендации платформы

гитхаб
и перевод на русский

🏔 Сообщество ML-энтузиастов и AI в горах
Телеграм: @mountainai_info
Сайт: https://mountainai.tech

Обсуждение 0

Вход в экосистему

Ваши настройки cookie