Реставрация ruGPT-3 XL: возвращаем к жизни забытую русскую языковую модель
Казалось бы, зачем нужна базовая языковая модель на 1.3B параметров, способная лишь продолжать текст. Однако извлечение весов из сырого
mp_rank_00_model_states.pt, монолитно завязанного на PyTorch 1.7, — весьма нетривиальная инженерная задача.
Запуск легаси-модели требует полной пересборки её архитектуры под актуальные transformers. Сшитая QKV-проекция разделяется на независимые тензоры, а архаичные зависимости от DeepSpeed и apex удаляются под корень. Всё это позволяет перевести формат в GGUF для инференса на современных мощностях.
Изучим механику пошаговой миграции легаси-весов.
Обсуждение 3
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram