avatar
Сергей Булаев AI 🤖
@sergiobulaev
20.11.2024 08:49
Как быстренько запилить визульный RAG.

Ребята из Vespa показали, как просто сделать Visual RAG (Retrieval-Augmented Generation) для работы с PDF-документами. Они построили демо-приложение на Python, которое позволяет искать и извлекать данные из PDF с помощью визуальных и текстовых запросов. Ключевой момент — использование ColPali-эмбеддингов, которые объединяют текст и изображения для более точного поиска. Приложение получилось быстрым и наглядным, с поддержкой функций вроде подсказок при вводе и динамических сниппетов.

Всё работает на Vespa — платформе, которая хорошо подходит для масштабируемых и сложных запросов. В качестве фронтенда использовалась FastHTML, позволяющая писать весь код на Python, включая интерфейс. Данные из PDF предварительно обрабатывались, чтобы извлечь изображения, текст и графики, а модели машинного обучения помогали создавать эмбеддинги и генерировать вопросы для поиска.

Исходники демо приложения, тут ноутбук с разбором.

Пару исслодавний по теме: Document Screenshot Embedding, Docling by IBM

​​​​​​​​​​​​​​​​Сергей Булаев AI 🤖 - об AI и не только
12
3
115 2.3K

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram