avatar
Русский ИТ бизнес
@bezsmuzi
22.10.2025 13:35
На Реддите парень собрал LLM-монстра за копейки ??

Железо:
• i5-6500 за копейки
• 2 RTX 3060 по 12GB VRAM
• 40GB RAM (докупил 32GB)
• Мешанина из SSD и HDD

А оптимизация - просто песня:

• Квантование qwen3:4b-q4_K_M в Ollama
• Настройка num_batch и num_ctx
• Под undervolting GPU до 145W - чтобы избежать троттлинга!
• Весь RAG и чат-боты работают на 6.7GB VRAM вместо 10.5GB

Итог: скорость 50-65 токенов/сек, общие затраты ~$700.

Пишет:

Мой RAG и чат-боты теперь работают всего с 6,7 ГБ видеопамяти вместо 10,5 ГБ! Это почти эквивалентно бесплатному добавлению третьего графического процессора с 6 ГБ видеопамяти!

- Используйте первый графический процессор для всех задач, связанных с выводом данных Ollama, для всей сети. Благодаря тщательному планированию, всё умещается в 6,7 ГБ видеопамяти, оставляя 5,3 ГБ для любых новых моделей, которые могут быть установлены без необходимости извлечения/перезагрузки.

- Далее я планирую использовать второй графический процессор для запуска PyTorch для обработки дистилляции.


Зачем? Да хобби у него такое.

Русский ИТ бизнес
? 9
? 5
? 1
2 63 3K

Обсуждение 2

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram