avatar
дата инженеретта
@data_engineerette
17.04.2026 11:55
Мой первый инцидент

У нас есть процесс дежурств, где нужно следить за кластером, поднимать даги, помогать пользователям

И вот уже вечер, все нормально, но внезапно выстрелил алерт. По одному стримингу сильно возросли лаги - накопилось много необработанных сообщений

Я смотрю график - да, лаг прочитанных сообщений начал плавно возрастать, а потом улетел в бесконечность

Я смотрю в кафку - данные приходят

Я смотрю спарк приложение - оно running, тасочки выполняются

Все работает, а данных нет


Детальнее углубляюсь в тасочки - все читается, но количество строк = 0

Смотрю на минимальный оффсет в кафке - а он сииильно дальше. И оффсеты, которые пытается обработать спарк, уже не существуют! Данные лежат только за последние 1,5ч, а не за месяц и ускользают прямо на моих глазах!

Я накидываю ресурсов, чтобы как можно быстрее догнать данные. Для апрува пингую человечка, который почти всегда онлайн. Через 15 минут начинают появляться сообщения в табличке, я вздыхаю спокойнее…

Потом я анализирую каунты по датам. Данных пришло в 20 раз больше, чем изначально закладывалось под этот топик

@data_engineerette
🔥 25
😭 8
3
17 7 2.3K

Обсуждение 17

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram