avatar
Если быть точным
@tochno_st
23.10.2025 14:51
68 тысяч таблиц — столько данных мы обработали, чтобы собрать самый востребованный датасет в каталоге «Если быть точным». Как мы это сделали? Отвечаем в рассылке

Речь о датасете на основе Базы данных показателей муниципальных образований. Она по-своему уникальна: там есть данные на уровне отдельного района по множеству параметров — от численности населения и миграции до доходов и расходов местных бюджетов.

На сайте Росстата эта база доступна не всегда, а данные можно выгружать только вручную через неудобный интерфейс. Поэтому мы привели все данные к единому формату, сразу пригодному для анализа. Но в процессе работы над датасетом мы столкнулись с проблемами. Вот несколько:

Как собрать единый аккуратный датасет из 82 региональных баз данных с 68 тысячами таблиц без документации?

Что делать, когда один и тот же код показателя или его признака в разных регионах расшифровывается по-разному?

Как отслеживать изменение кодов ОКТМО, если у муниципалитета меняется статус — и при этом сохранить целостность временного ряда данных?

Как мы с этим справились? Читайте в новом выпуске рассылки, который доступен подписчикам нашего закрытого телеграм-канала и Boosty.
66
👍 20
🏆 16
2 52 14.1K

Обсуждение 2

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram