gonzo_ML_podcasts (@gonzo_ML_podcasts): Best-of-Infinity: Принципиальный подход к максимизации производительности LLM во время инф…

Best-of-Infinity: Принципиальный подход к максимизации производительности LLM во время инференса

Title: Best-of-∞ - Asymptotic Performance of Test-Time Compute
Authors: Junpei Komiyama, Daisuke Oba, Masafumi Oyamada
Paper: https://arxiv.org/abs/2509.21091
Review: https://arxiviq.substack.com/p/best-of-asymptotic-performance-of
Code: https://github.com/jkomiyama/BoInf-code-publish

# TL;DR

Что сделано?
В статье представлен теоретический фреймворк "Best-of-∞", определяющий асимптотический предел производительности для стратегии best-of-N (BoN) с голосованием по большинству. Чтобы приблизиться к этому пределу с конечными ресурсами, авторы предлагают два ключевых нововведения: 1) Адаптивный алгоритм сэмплинга, который использует байесовское моделирование (в частности, фактор Байеса), чтобы динамически решать, когда прекратить генерацию ответов, тем самым оптимизируя вычислительные затраты. 2) Метод создания оптимально взвешенных ансамблей из нескольких LLM, который формулирует задачу оптимизации весов в асимптотическом пределе как решаемую задачу смешанного целочисленного линейного программирования (MILP).

Почему это важно?
Эта работа предлагает принципиальную и высокоэффективную альтернативу распространённому, но вычислительно затратному подходу BoN с фиксированным бюджетом. Схема адаптивного сэмплинга достигает той же точности, что и сэмплинг с фиксированным числом сэмплов, но со снижением вычислительных затрат в 2-5 раз, что напрямую решает проблему дорогостоящего инференса LLM. Более того, оптимизированные с помощью MILP ансамбли демонстрируют производительность, превосходящую даже лучшую отдельную LLM. Это показывает, что грамотное объединение разных моделей — эффективный способ достичь SOTA-производительности. Такой подход смещает парадигму от эвристического масштабирования на этапе инференса к более строгому, экономичному и ориентированному на производительность фреймворку.

# Мясо 🍖

📜 Введение

Стратегия best-of-N (BoN) — генерация нескольких ответов и выбор лучшего из них — является стандартным методом повышения надёжности больших языковых моделей (LLM) при решении сложных задач, требующих рассуждений. Хотя этот метод эффективен, он ставит критический вопрос: какого количества сэмплов, N, достаточно? Малое N может быть недостаточным, а большое N — вычислительно неподъёмным. В этой статье авторы элегантно решают этот компромисс, анализируя теоретический предел, когда N стремится к бесконечности — концепцию, которую они называют "Best-of-∞".

Эта работа — яркий пример философии «умнее, а не больше», набирающей популярность в AI. В то время как большая часть индустрии сосредоточена на масштабировании моделей до сотен миллиардов параметров, эта статья демонстрирует, что глубоких улучшений в рассуждениях можно добиться за счёт более интеллектуального использования существующих моделей во время инференса.

💡 Фреймворк Best-of-∞

Основной вклад статьи — это двухкомпонентный подход к эффективному приближению идеализированной производительности Best-of-∞.

1. Адаптивный сэмплинг для эффективного инференса

Вместо использования фиксированного числа генераций авторы предлагают адаптивную схему сэмплинга, которая прекращает генерировать ответы, как только достигается статистическая уверенность в результате голосования по большинству. Этим процессом управляет непараметрическое байесовское моделирование.

Метод моделирует неизвестное распределение ответов LLM с использованием априорного процесса Дирихле. Выбор процесса Дирихле здесь особенно удачен. В отличие от моделей, предполагающих фиксированный набор возможных ответов, это непараметрический априор, который может изящно обрабатывать появление новых, ранее не встречавшихся ответов во время генерации. Он делает это, всегда оставляя часть вероятностной массы для «неизвестного» — свойство, необходимое для открытой природы выводов LLM. Решение о прекращении сэмплинга основывается на факторе Байеса (BF), который количественно оценивает доказательства в пользу гипотезы о том, что текущий самый частый ответ действительно является истинным большинством.

Обсуждение 0

Пожаловаться

Обсуждение 0

Вход в экосистему

Ваши настройки cookie