Массовый сбой в Cloudflare положил X, Spotify, Zoom и ChatGPT // Хабр
Один из крупнейших в истории инцидентов Cloudflare привел к одновременному падению сотен популярных сайтов по всему миру 18 ноября.
Проблемы затронули сразу множество популярных сервисов: пользователи жаловались на недоступность X (бывший Twitter), Spotify, Zoom, ChatGPT, Letterboxd и ряда других крупных платформ. При попытке зайти на сайты появлялись сообщения о том, что Cloudflare не может отдать страницу из-за внутренней ошибки. Cloudflare — один из ключевых поставщиков услуг CDN.
Компания обеспечивает защиту от кибератак, распределение нагрузки, ускорение загрузки контента и стабильность работы миллионов сайтов. Поэтому любой серьёзный сбой быстро отражается на огромном количестве онлайн-сервисов по всему миру.
Даже сайт DownDetector, который фиксирует массовые сбои, частично завис и работал нестабильно. Когда он загружался, графики демонстрировали резкий и одновременный рост жалоб на множество крупных сервисов.
Cloudflare выпустила анализ инцидента. Все запросы, которые приходят в сеть Cloudflare, пропускаются через несколько модулей безопасности, в том числе через систему защиты от бот-атак Bot Management. Она включает, помимо прочего, модель машинного обучения, которая принимает на вход конфигурационный файл с описанием признаков автоматических запросов. Этот файл обновляется в сети Cloudflare каждые несколько минут.
Признаки ботов хранятся в аналитической базе Cloudflare. В рамках мер по повышению безопасности инженеры сервиса изменили настройки доступа к ней, но не предусмотрели дополнительную проверку служебных данных, из-за чего записи в таблице продублировались. Файл конфигурации быстро увеличился в несколько раз и при загрузке на серверы Cloudflare превысил допустимый лимит — это вызвало критическую ошибку в системе.
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram