SHADOW:Group (@shadow_group_tg): 📁 Массовый поиск конфиденциальных данных в PDF-файлах Исследуя таргет часто попадается мн…

Массовый поиск конфиденциальных данных в PDF-файлах

Исследуя таргет часто попадается много pdf'ок, которые могут содержать конфиденциальные данные. Просматривать вручную все это очень долго, а потому можно попробовать автоматизировать этот процесс.

Используем gau для сбора конечных точек из wayback, urlscan и т.д.

Фильтруем конечные точки по расширению .pdf с помощью Grep.

Проверяем с httpx, что url живой и возвращает 200 ОК.

С помощью curl'а смотрим все живые pdf'ки.
Конвертируем PDF в текст. Для этого есть утилитка pdftotext, которая, как видно из названия, умеет переводить из pdf в текст. Устанавливается так:

sudo apt install poppler-utils

Используем Grep для некоторых чувствительных слов, таких как "internal use only" или "confidential" и т.д.

В результате чего получим такую команду:

for i in $(echo "gov.uk" | gau --subs --threads 16 | grep -E -o 'https?://[^[:space:]]+\.pdf' | httpx -silent -mc 200); do if curl -k -s $i | pdftotext -q - - | grep -Eaiq 'confidential|internal use only'; then echo $i | tee output.txt; fi; done

Эта команда сканирует веб-сайт "gov.uk" и его поддомены в поиске URL-ов с PDF-файлами. Затем она проверяет каждый PDF-файл на наличие строк "confidential" или "internal use only" и записывает эти URL-ы в файл "output.txt".

Вы можете включить свое творческое мышление и попытаться изменить этот скрипт по своему усмотрению. Например, используя katana вместо gau или проверяя наличие других чувствительных слов, используя другие расширения и т.д. Использование собственного творческого подхода даст вам максимальную отдачу!

#web #recon #leak

Обсуждение 0

Вход в экосистему

Ваши настройки cookie