GPT-OSS — открытые модели с продвинутым ризонингом от OpenAI

Представлено два варианта:
—
GPT-OSS-120B — 117B параметров, запускается на одной H100 (80GB)
—
GPT-OSS-20B — 21B параметров, работает на 16GB GPU
💡 Оба варианта — MoE-модели (Mixture of Experts) с 4-битной квантизацией (MXFP4)
Особенности:
• Архитектура Token-choice MoE с SwiGLU
• Контекст до
128K токенов с RoPE
• Модель заточена на CoT (chain-of-thought)
• Поддержка instruction-following и tool-use
• Совместима с
transformers, vLLM, llama.cpp, ollama
• Используется тот же токенизатор, что и в GPT-4o
Младшая модель может запускаться даже на
локальном железе!
Лицензирование: Apache 2.0
https://github.com/huggingface/transformers/releases/tag/v4.55.0
🚀 Попробовать можно тут:
https://www.gpt-oss.com/
Официальный релиз:
http://openai.com/open-models
@ai_machinelearning_big_data
#openai #opensource #chatgpt
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram