Кучевые АйТи (@oblakoteka): Модель думает, база знает Если у вас в компании база знаний лежит мертвым грузом, а сотруд…

Модель думает, база знает

Если у вас в компании база знаний лежит мертвым грузом, а сотрудники и клиенты все равно спрашивают одно и то же — есть новости. Мы в Облакотеке подняли RAG-пайплайн на своем железе и ищем тех, кто готов его протестировать на реальных данных. И да, это бесплатно пока что.

В чем суть?

RAG (Retrieval-Augmented Generation) — это архитектурный подход, при котором языковая модель отвечает не на основе своих весов или данных, на которых ее учили, а на основе контекста, извлеченного из вашей базы знаний в момент запроса.

Это работает так: запрос превращается в векторный формат, по нему ищется семантически близкий контекст, который передается в LLM вместе с вопросом. В результате система дает ответы, основанные на реальных данных, что сводит процент галлюцинаций к минимуму.

Мы в Облакотеке подняли такой pipeline целиком и сейчас обкатываем его на реальных данных и клиентах. Ищем компании, которым это тоже нужно. Как обычно, пока сервис находится на этапе пилота, он будет бесплатным.

Что конкретно подняли?

Pipeline разбит на три независимых компонента, каждый на отдельной VM.

Embedder. Используем BGE-M3 от BAAI — одна из лучших открытых моделей для многоязычного эмбеддинга, поддерживает до 8192 токенов на входе, хорошо работает с русским языком. Принимает документы при индексации и запросы в продакшене, переводит в векторные представления.

Параметры VM: RTX A4000; 8 CPU; 46 GB RAM; 100 GB SSD.

Векторная БД. Отдельная легкая VM для хранения эмбеддингов и обработки семантического поиска. Тестируем несколько типов VBD, в том числе и для GraphRAG.

Параметры VM: 2 CPU; 4 GB RAM; 50–100 GB SSD.

LLM Qwen3.5-9B, инференс через SGLang. Используем модель от Alibaba, Qwen3.5-9B, которая вышла в феврале 2026 года. В ней 9 миллиардов параметров, контекстное окно ~262K токенов, что важно для RAG с большими базами знаний.

Модель поддерживает два режима работы: с цепочкой рассуждений (thinking mode) и без нее — для задач, где важна скорость ответа. SGLang обеспечивает эффективный батчинг и высокую пропускную способность на GPU, это рекомендованный фреймворк для инференса Qwen3.5. Под модель выделены две карты RTX A4000 по 16 GB VRAM каждая — итого 32 GB суммарной видеопамяти через тензорный параллелизм, что позволяет комфортно разместить модель и обслуживать параллельные запросы.

Параметры VM: 2× RTX A4000; 16 CPU; 92 GB RAM; 512 GB SSD.

Наш стек: Ubuntu, NVIDIA Driver, NVIDIA CUDA, Docker, Docker Compose. В качестве векторных хранилищ используем Qdrant, PostgreSQL + pgvector, LanceDB и Milvus. Также применяем SGLang и техники кэширования для оптимизации вычислений.

Что за GPU используем?

RTX A4000 — профессиональная графическая карта с 16 GB VRAM, изначально спроектированная для CAD и визуализации, а не для дата-центров. Аренда или покупка таких карт существенно дешевле, чем A100 или H100. Именно RAG делает это возможным: модели не нужно помнить все из весов — нужный контекст подается в момент запроса.

Поэтому 9B-модель на 32 GB суммарной VRAM справляется с задачами, для которых без RAG потребовалась бы модель в разы большего размера и соответствующее железо. Качество ответов при этом определяется качеством подготовки данных и релевантностью извлеченного контекста.

Какие особенности подготовки данных?

Это очень важный первоначальный этап: документы нужно очистить, разбить на чанки, проиндексировать через эмбеддер и загрузить в векторную БД. Мы готовы помочь с этим процессом в рамках тестирования — это отдельная экспертиза по эффективной подготовке данных.

Кому может быть нужно?

Компаниям, у которых есть структурированная база знаний, документация, FAQ (что угодно, по чему должна отвечать модель) и желание попробовать RAG.

Нам, в свою очередь, нужна нагрузка системы и обратная связь по качеству. Поэтому бесплатно выдаем в тест работающий RAG-pipeline. Если вы давно хотели «прикрутить» LLM к своей базе знаний — напишите в личку Владимиру @VladimirSTV, обсудим.

#искусственно_интеллектуально

Обсуждение 0

Вход в экосистему

Ваши настройки cookie