68 тысяч таблиц — столько данных мы обработали, чтобы собрать самый востребованный датасет в каталоге «Если быть точным». Как мы это сделали? Отвечаем в рассылке
Речь о
датасете на основе Базы данных показателей муниципальных образований. Она по-своему уникальна: там есть данные на уровне отдельного района по множеству параметров — от численности населения и миграции до доходов и расходов местных бюджетов.
На сайте Росстата эта база доступна не всегда, а данные можно выгружать только вручную через неудобный интерфейс. Поэтому мы привели все данные к единому формату, сразу пригодному для анализа. Но в процессе работы над датасетом мы столкнулись с проблемами. Вот несколько:
Как собрать единый аккуратный датасет из 82 региональных баз данных с 68 тысячами таблиц без документации?
Что делать, когда один и тот же код показателя или его признака в разных регионах расшифровывается по-разному?
Как отслеживать изменение кодов ОКТМО, если у муниципалитета меняется статус — и при этом сохранить целостность временного ряда данных?
Как мы с этим справились? Читайте в новом выпуске рассылки, который доступен подписчикам нашего закрытого телеграм-канала и Boosty.
Обсуждение 2
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram