Мой первый инцидент
У нас есть процесс дежурств, где нужно следить за кластером, поднимать даги, помогать пользователям
И вот уже вечер, все нормально, но внезапно выстрелил алерт. По одному стримингу сильно возросли лаги - накопилось много необработанных сообщений
Я смотрю график - да, лаг прочитанных сообщений начал плавно возрастать, а потом улетел в бесконечность
Я смотрю в кафку - данные приходят
Я смотрю спарк приложение - оно running, тасочки выполняются
Все работает, а данных нет
Детальнее углубляюсь в тасочки - все читается, но количество строк = 0
Смотрю на минимальный оффсет в кафке - а он сииильно дальше. И оффсеты, которые пытается обработать спарк, уже не существуют!
Данные лежат только за последние 1,5ч, а не за месяц и ускользают прямо на моих глазах!
Я накидываю ресурсов, чтобы как можно быстрее догнать данные. Для апрува пингую человечка, который почти всегда онлайн. Через 15 минут начинают появляться сообщения в табличке, я вздыхаю спокойнее…
Потом я анализирую каунты по датам. Данных пришло в 20 раз больше, чем изначально закладывалось под этот топик
@data_engineerette
Обсуждение 17
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram