Русский ИТ бизнес (@bezsmuzi): На Реддите парень собрал LLM-монстра за копейки ? Железо: • i5-6500 за копейки • 2 RTX 306…

На Реддите парень собрал LLM-монстра за копейки ??

Железо:
• i5-6500 за копейки
• 2 RTX 3060 по 12GB VRAM
• 40GB RAM (докупил 32GB)
• Мешанина из SSD и HDD

А оптимизация - просто песня:

• Квантование qwen3:4b-q4_K_M в Ollama
• Настройка num_batch и num_ctx
• Под undervolting GPU до 145W - чтобы избежать троттлинга!
• Весь RAG и чат-боты работают на 6.7GB VRAM вместо 10.5GB

Итог: скорость 50-65 токенов/сек, общие затраты ~$700.

Пишет:

Мой RAG и чат-боты теперь работают всего с 6,7 ГБ видеопамяти вместо 10,5 ГБ! Это почти эквивалентно бесплатному добавлению третьего графического процессора с 6 ГБ видеопамяти!

- Используйте первый графический процессор для всех задач, связанных с выводом данных Ollama, для всей сети. Благодаря тщательному планированию, всё умещается в 6,7 ГБ видеопамяти, оставляя 5,3 ГБ для любых новых моделей, которые могут быть установлены без необходимости извлечения/перезагрузки.

- Далее я планирую использовать второй графический процессор для запуска PyTorch для обработки дистилляции.

Зачем? Да хобби у него такое.

Русский ИТ бизнес

Обсуждение 2

Пожаловаться

Обсуждение 2

Вход в экосистему

Ваши настройки cookie