Oleg Shestakov - Digital Business (@oshestakovdigital): Что такое RAG (Retrieval Augmented Generation)? Сегодня разберемся в одной полезной техно…

Что такое RAG (Retrieval Augmented Generation)?

Сегодня разберемся в одной полезной технологии, которая позволяет нам "дообучать" любую нейронку - ChatGPT / Claude / DeepSeek и т.д.

Представьте, что вам нужно проанализировать какие-то внутренние данные вашей компании с помощью нейросети. Например - проанализировать все данные квартального отчета компании и выявить самые крупные статьи расходов по каждому отделу. Но нейросеть ничего не знает про эти данные т.к. они лежат например в вашем закрытом Google Drive. Да - можно взять, выгрузить эти данные в Excel и скормить тому же Claude.
Но проблемы начинаются тогда, когда данных с которыми нужно работать очень много и всегда нужен какой-то конкретный кусок данных - такой объем не загрузить в Claude или ChatGPT - не хватит контекстного окна.

Здесь нам на помощь и приходит RAG.
Все нужные данные загружаются в векторную базу данных. Там все тексты режутся на куски - “чанки” и представляются в векторном формате. А дальше происходит магия:

При каждом вашем промте, вы сначала обращаетесь к своей базе данных (знаний), вытаскиваете нужную инфу, которая помогает LLM лучше ответить н ваш вопрос и непосредственно в LLM идет ваш изначальный промт, дополненный инфой из базы. То есть вы обогащаете свой промт свежим и точным контекстом на лету. Даже если этой информации нет еще нигде в интернете.

Фактически итоговый промт будет состоять из трех частей
#Instructions - это роль, которую вы задали нейронке
#Context - контекст, который был взят из вашей базы
#Prompt - непосредственно промт который вы отправили в свою RAG систему

Какие плюсы у векторных баз данных против поиска по тексту?
Можно выполнять поис по смыслу, а не по ключевым словам
Масштабируется на 100K+ записей
Есть структура, фильтрация, ID, можно прикрутить мета-данные
RAG архитектура позволяет GPT “думать”

В каких случаях полезен RAG?
Когда у вас не хватает контекстного окна, чтобы загрузить нужный контекст вместе с промтом
Когда у нейронки банально нет никакой информации в собственной памяти - например данные появились совсем недавно и нейронка еще не успела найти их в интернете. Как на примере написания текстов для ниши Gambling - каждый день выходят новые бренды казино, трафик которых можно забрать, а так же появляются новые игры о которых ни ChatGPT ни Claude еще ничего не известно
Когда данные быстро устаревают: например вам нужно генерировать прогнозы цены акций или цен на золото, а в LLM они есть только “на вчера”

Кейсы использования RAG в связке с нейронкой:

1?? Ответы на вопросы сотрудников по вашей внутренней базе знаний “Как правильно выставить счет клиенту за продвижение сайта?” - достаточно сгрузить все в векторную базу и тот же ChatGPT сможет осмысленно отвечать и помогать сотрудникам компании. Если заморочиться - может даже давать ссылку на подробную документацию
2?? Написание ИИ-контента по темам, о которых еще нет информации в LLM, но писать надо. Например - про новый бренд казино, чей трафик вы хотите отжать Мы сейчас собираем именно такой RAG для одной Affiliate-команды

На чем можно реализовать RAG-систему?
На самом деле вариантов множество - от наколеночного за 1-2 часа до Enterprise решений, которые всасывают в себя любые форматы данных в плоть до видео и индексируют их хитрыми способами.
В следующем посте расскажу про конкретный софт и технологии для различных кейсов.

Обсуждение 10

Вход в экосистему

Ваши настройки cookie