avatar
Хабр
@habr_com
30.03.2026 12:01
Реставрация ruGPT-3 XL: возвращаем к жизни забытую русскую языковую модель

Казалось бы, зачем нужна базовая языковая модель на 1.3B параметров, способная лишь продолжать текст. Однако извлечение весов из сырого mp_rank_00_model_states.pt, монолитно завязанного на PyTorch 1.7, — весьма нетривиальная инженерная задача.

Запуск легаси-модели требует полной пересборки её архитектуры под актуальные transformers. Сшитая QKV-проекция разделяется на независимые тензоры, а архаичные зависимости от DeepSpeed и apex удаляются под корень. Всё это позволяет перевести формат в GGUF для инференса на современных мощностях.

Изучим механику пошаговой миграции легаси-весов.
😁 20
👍 7
5
👎 2
😍 2
💩 1
3 35 17.7K

Обсуждение 3

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram

Хабр

129.4K
НЛО с вами!

№ 5197888779

Хабр Новости → https://t.me/habr_com_news
Хабр Карьера → https://t.me/habr_career
Реклама → adv@habr.team
Открыть в Telegram