Кучевые АйТи (@oblakoteka): От звонка до лайка: опыт создания техподдержки. Часть 3 Что стоит за надежностью ИТ-серви…

От звонка до лайка: опыт создания техподдержки. Часть 3

Что стоит за надежностью ИТ-сервисов, которую мы обещаем клиентам в SLA? Это не просто технологии, а выстроенные процессы: анализ рисков, распределение приоритетов, постоянный мониторинг.

Как в Облакотеке создали систему, которая минимизирует простои, рассказывает Ирина Курбатова, директор департамента техподдержки .

При подборе услуг и подготовке SLA для клиентов мы всегда стремимся разобраться, как ИТ-услуга Облакотеки влияет на бизнес-процессы компании, и сделать наши услуги надежной опорой для каждого клиента и партнера.

Обеспечить внутреннюю систему контроля, проактивных мер, регламентов реагирования на угрозы и аварийные ситуации — это кропотливый, непростой, постоянно развивающийся процесс. Для его поддержания в актуальном состоянии мы в том числе используем рекомендации стандартов ISO/IEC 27001 и ISO/IEC 27031, ISO 22301, законодательство РФ в области информатизации, ИТ-услуг, защиты данных.

В Облакотеке доступность, целостность и безопасность ИТ-услуг обеспечивают по двум направлениям:

BCP (Business Continuity Plan) — проактивно следят, чтобы критически важные элементы инфраструктуры и ПО работали корректно, без сбоев и с высокой производительностью.

DRP (Disaster Recovery Plan) — быстро восстанавливают сервисы после аварий или любых отклонений от штатного режима.

Чтобы внедрить каждое из направлений, мы:

Описали наши ИТ-услуги, критичные ресурсы и внутренние сервисы, от которых они зависят.

С учетом развития технологий, роста количества возможностей и фич, мы уделили внимание тому, чтобы поддерживать знания в актуальном состоянии и вовремя осведомлять команду об изменениях. Вся информация структурирована на защищенном внутреннем ресурсе.

Проанализировали, как влияют друг на друга ресурсы и сервисы нашей внутренней архитектуры. Также мы учли компетенции команды и качество документации. После этого подготовили модель угроз и оценили их вероятность.

Наконец, самая важная часть: мы описали, к каким последствиям приведут сбои, снижение производительности или уязвимости. Определили, как эти риски повлияют на ИТ-услуги, финансы или репутацию компании.

На базе анализа ранжировали все элементы, которые влияют на ИТ-услуги. Установили RTO (recovery time objective) и RPO (recovery point objective), определили приоритетность восстановления каждого внутреннего ресурса или сервиса.

Зарезервировали и продублировали все, что нужно для работы критически важных ресурсов и сервисов. Затем описали, как запускать резервные мощности, и проверили, что процедуры работают.

Установили, какие значения доступности и безопасности для сервисов считаются нормой, а какие — нет. Настроили мониторинг, который помогает это отслеживать (подробнее об этом мы писали здесь).

Создали автоматическое реагирование на сбои. Также предусмотрели процессы с ручной диагностикой. Это позволяет отвечать на проактивные алерты, аварийные инциденты и восстанавливать доступность сервисов».

А предыдущую часть серии можно найти по ссылке.

#Ирина_поддержи

Обсуждение 0

Вход в экосистему

Ваши настройки cookie