gonzo-обзоры ML статей (@gonzo_ML): Что всё это значит? Предсказать, что какая-то из этих способностей возникнет, по маленьким…

Что всё это значит? Предсказать, что какая-то из этих способностей возникнет, по маленьким моделям нереально (по крайней мере по обобщённым графикам скейлинга). И наверняка если скейлить модели дальше, то обнаружатся и другие эмерджентные свойства, которых сейчас не видно. В наборе бенчмарков BIG-Bench есть ещё задачи, которые даже самые большие модели пока не осиливают и они вероятные кандидаты на улучшение через дальнейший скейлинг. Ровно такая история случилась с бенчмарком Word in Context (WiC), с которым не справлялась самая большая GPT-3, и автор статьи написал, что вероятно авторегрессионная языковая модель для такой задачи не подходит и нужна двунаправленная модель. Но затем появилась авторегрессионная огромная модель PaLM на 540B параметров и она смогла.

Причина эмерджентности — это отдельный вопрос на миллион. Для каких-то задач можно найти интуицию, почему оно может происходить. Например, для задач с последовательностью шагов логично, если глубина модели будет являться функцией от этого числа шагов. Также логично, что модель должна быть побольше, если надо запомнить всего побольше (например, базу фактов). Но в общем случае неясно. Не удивлюсь, если итоговое объяснение будет через Kahn-Kalai conjecture (https://www.quantamagazine.org/elegant-six-page-proof-reveals-the-emergence-of-random-structure-20220425/).

Нельзя среди прочего исключать, что метрики выбраны таким образом, что по ним не видны инкрементальные улучшения, а виден только финальный прорыв, когда модель уже решила конечную задачу. Такова, например, метрика про точное совпадение со строкой. Но это вряд ли полное объяснение, потому что качество промежуточных шагов тоже может внезапно скакнуть. Вообще, есть тут что-то близкое к гроккингу (@gonzo_ML831). В приложении смотрят на cross-entropy loss, и эта метрика действительно постепенно улучшается, но по ней невозможно предсказать, когда и почему наступит ~~сингулярность~~ эмерджентность по более высокоуровневой метрике.

Отдельное важное наблюдение состоит в том, что масштаб (в смысле scale) это не главный и единственный фактор, и меньшая по размеру модель вполне может достичь тех же результатов с другой архитектурой, более качественными данными или более хитрой обучающей процедурой. Как пример, UL2 на 20B параметров (https://arxiv.org/abs/2205.05131) достигает того же качества, что и GPT-3 на 175B (@gonzo_ML305), вероятно потому, что обучение у неё более хитрое. Ну и вообще, как только теорема существования доказана (способность продемонстрирована), начинается инжиниринг по получению этой способности в меньших моделях. Так, к примеру, было с instruction-based finetuning, в котором InstructGPT с 1.3B параметров в итоге превзошла ранние модели на 68B.

Но всё это конечно не значит, что к любой способности мы подберёмся через скейлинг. Или что скейлинг добьёт интересные нам способности до нужного уровня, а не устаканится на плато. Или что с новыми техниками и архитектурами все обнаруженные закономерности останутся актуальными. Много тут скоррелированных переменных. Но с другой стороны, есть значит какой-то общий фактор.

Есть во всеми этими феноменами и риски. Например, риск экстракции данных из модели, эта способность тоже похожа на эмерджентную. Ну и много других рисков есть у больших моделей.

Интересный сдвиг также происходит и в социологической плоскости. С ростом масштаба моделей поменялся и способ использования этих моделей. Мы всё больше движемся к универсальным моделям, которые могут решать различные задачи. Вся тема про foundation models (https://blog.inten.to/foundation-models-b89e7610057) во многом про это. Тоже своего рода эмерджентность, но не та.

В итоге нельзя сказать, что мы прям что-то сильно новое узнали, но обобщение полезное. Ждём новых эмерджентностей и машем.

Обсуждение 0

Вход в экосистему

Ваши настройки cookie