Хабр (@habr_com): Реставрация ruGPT-3 XL: возвращаем к жизни забытую русскую языковую модель Казалось бы, за…

Реставрация ruGPT-3 XL: возвращаем к жизни забытую русскую языковую модель

Казалось бы, зачем нужна базовая языковая модель на 1.3B параметров, способная лишь продолжать текст. Однако извлечение весов из сырого mp_rank_00_model_states.pt, монолитно завязанного на PyTorch 1.7, — весьма нетривиальная инженерная задача.

Запуск легаси-модели требует полной пересборки её архитектуры под актуальные transformers. Сшитая QKV-проекция разделяется на независимые тензоры, а архаичные зависимости от DeepSpeed и apex удаляются под корень. Всё это позволяет перевести формат в GGUF для инференса на современных мощностях.

Изучим механику пошаговой миграции легаси-весов.

Хабр

129.4K

НЛО с вами!

№ 5197888779

Хабр Новости → https://t.me/habr_com_news
Хабр Карьера → https://t.me/habr_career
Реклама → adv@habr.team

Обсуждение 3

Хабр

Пожаловаться

Обсуждение 3

Хабр

Вход в экосистему

Ваши настройки cookie