avatar
Paspertin Blog
@pigint
14.12.2025 12:59
"Парсинг" Википедии

Сливаю "приват". База данных на 70 тыс. записей ФИО + ДР. Публичных лиц и знаменитостей РФ (по умному это называется PEP - politically exposed person). Если знаете про сайт rupep[.]org и тем более пытались его парсить, то вы понимаете о чём я. Я вот тоже пытался парсить этот сайт, и ничего не вышло. Потому вытащил на 90% те же самые данные из Википедии.

Сам файл будет в комментах. Актуальность- начало лета 2025 года. Но это не проблема. Вот вам готовый bash- скрипт, при помощи которого вы в любой момент и за пару минут сможете сами "парсить Википедию".

 bash
OUTPUT_FILE=raws/ru-pep-wiki.csv

curl -o ${OUTPUT_FILE} -G 'https://query.wikidata.org/sparql' \
--header "Accept: text/csv" \
--data-urlencode query='
SELECT ?person ?place ?dob ?dod ?name_en ?name_ru ?name_native ?name_birth ?image ?link_ru ?link_en
WHERE {
?person wdt:P31 wd:Q5. # Является человеком
?person wdt:P27 wd:Q159. # Гражданство: Россия
?person wdt:P569 ?dob.
FILTER(?dob >= "1940-01-01"^^xsd:dateTime)

OPTIONAL { ?person wdt:P19 ?place. }
OPTIONAL { ?person wdt:P18 ?image. }

OPTIONAL { ?person wdt:P570 ?dod. }
OPTIONAL { ?person rdfs:label ?name_ru. FILTER(LANG(?name_ru) = "ru") }
OPTIONAL { ?person rdfs:label ?name_en. FILTER(LANG(?name_en) = "en") }

OPTIONAL { ?person wdt:P1559 ?name_native. }
OPTIONAL { ?person wdt:P1477 ?name_birth. }

OPTIONAL {
?link_ru schema:about ?person ;
schema:isPartOf <https://ru.wikipedia.org/>.
}

OPTIONAL {
?link_en schema:about ?person ;
schema:isPartOf <https://en.wikipedia.org/>.
}
}
'

sed -i 's|http://www.wikidata.org/entity/||g' ${OUTPUT_FILE}
sed -i 's/T00:00:00Z//g' ${OUTPUT_FILE}
sed -i 's/\xCC\x81//g' ${OUTPUT_FILE} # удалить знак ударения

python3 parse.py ${OUTPUT_FILE}


Тизер рекламы. Я создам закрытый и платный канал, где буду выкладывать подобные "приваты" со всеми скриптами и подробными инструкциями как я это сделал. Стоимость доступа в канал будет фиксированная и будет удваиваться каждый месяц. Готовых наработок на разной стадии готовности, у меня есть на пару месяцев публикаций (конвертация BigBase в csv, парсинг ГАС Выборы, учителя и воспитали детских садов с фотками, etc). Все мои материалы будут - open source с обязательным указанием авторства.

Большая часть прибыли с этого канала будет уходить на покупку различных баз и доступов к OSINT- инструментам. У подписчиков канала будет возможность бесплатно пользоваться этими инструментами и скачать купленные (и разрешенные к распространению продавцом!) базы. Но упор именно на техническую часть: парсинг инфы, python, linux bash...
11
🤡 6
👍 5
5 44 1K

Обсуждение 5

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram