Кучевые АйТи
@oblakoteka
От звонка до лайка: опыт создания техподдержки. Часть 3
Что стоит за надежностью ИТ-сервисов, которую мы обещаем клиентам в SLA? Это не просто технологии, а выстроенные процессы: анализ рисков, распределение приоритетов, постоянный мониторинг.
Как в Облакотеке создали систему, которая минимизирует простои, рассказывает Ирина Курбатова, директор департамента техподдержки .
При подборе услуг и подготовке SLA для клиентов мы всегда стремимся разобраться, как ИТ-услуга Облакотеки влияет на бизнес-процессы компании, и сделать наши услуги надежной опорой для каждого клиента и партнера.
Обеспечить внутреннюю систему контроля, проактивных мер, регламентов реагирования на угрозы и аварийные ситуации — это кропотливый, непростой, постоянно развивающийся процесс. Для его поддержания в актуальном состоянии мы в том числе используем рекомендации стандартов ISO/IEC 27001 и ISO/IEC 27031, ISO 22301, законодательство РФ в области информатизации, ИТ-услуг, защиты данных.
В Облакотеке доступность, целостность и безопасность ИТ-услуг обеспечивают по двум направлениям:
BCP (Business Continuity Plan) — проактивно следят, чтобы критически важные элементы инфраструктуры и ПО работали корректно, без сбоев и с высокой производительностью.
DRP (Disaster Recovery Plan) — быстро восстанавливают сервисы после аварий или любых отклонений от штатного режима.
Чтобы внедрить каждое из направлений, мы:
Описали наши ИТ-услуги, критичные ресурсы и внутренние сервисы, от которых они зависят.
Проанализировали, как влияют друг на друга ресурсы и сервисы нашей внутренней архитектуры. Также мы учли компетенции команды и качество документации. После этого подготовили модель угроз и оценили их вероятность.
Наконец, самая важная часть: мы описали, к каким последствиям приведут сбои, снижение производительности или уязвимости. Определили, как эти риски повлияют на ИТ-услуги, финансы или репутацию компании.
На базе анализа ранжировали все элементы, которые влияют на ИТ-услуги. Установили RTO (recovery time objective) и RPO (recovery point objective), определили приоритетность восстановления каждого внутреннего ресурса или сервиса.
Зарезервировали и продублировали все, что нужно для работы критически важных ресурсов и сервисов. Затем описали, как запускать резервные мощности, и проверили, что процедуры работают.
Установили, какие значения доступности и безопасности для сервисов считаются нормой, а какие — нет. Настроили мониторинг, который помогает это отслеживать (подробнее об этом мы писали здесь).
Создали автоматическое реагирование на сбои. Также предусмотрели процессы с ручной диагностикой. Это позволяет отвечать на проактивные алерты, аварийные инциденты и восстанавливать доступность сервисов».
А предыдущую часть серии можно найти по ссылке.
#Ирина_поддержи
Что стоит за надежностью ИТ-сервисов, которую мы обещаем клиентам в SLA? Это не просто технологии, а выстроенные процессы: анализ рисков, распределение приоритетов, постоянный мониторинг.
Как в Облакотеке создали систему, которая минимизирует простои, рассказывает Ирина Курбатова, директор департамента техподдержки .
При подборе услуг и подготовке SLA для клиентов мы всегда стремимся разобраться, как ИТ-услуга Облакотеки влияет на бизнес-процессы компании, и сделать наши услуги надежной опорой для каждого клиента и партнера.
Обеспечить внутреннюю систему контроля, проактивных мер, регламентов реагирования на угрозы и аварийные ситуации — это кропотливый, непростой, постоянно развивающийся процесс. Для его поддержания в актуальном состоянии мы в том числе используем рекомендации стандартов ISO/IEC 27001 и ISO/IEC 27031, ISO 22301, законодательство РФ в области информатизации, ИТ-услуг, защиты данных.
В Облакотеке доступность, целостность и безопасность ИТ-услуг обеспечивают по двум направлениям:
BCP (Business Continuity Plan) — проактивно следят, чтобы критически важные элементы инфраструктуры и ПО работали корректно, без сбоев и с высокой производительностью.
DRP (Disaster Recovery Plan) — быстро восстанавливают сервисы после аварий или любых отклонений от штатного режима.
Чтобы внедрить каждое из направлений, мы:
Описали наши ИТ-услуги, критичные ресурсы и внутренние сервисы, от которых они зависят.
С учетом развития технологий, роста количества возможностей и фич, мы уделили внимание тому, чтобы поддерживать знания в актуальном состоянии и вовремя осведомлять команду об изменениях. Вся информация структурирована на защищенном внутреннем ресурсе.
Проанализировали, как влияют друг на друга ресурсы и сервисы нашей внутренней архитектуры. Также мы учли компетенции команды и качество документации. После этого подготовили модель угроз и оценили их вероятность.
Наконец, самая важная часть: мы описали, к каким последствиям приведут сбои, снижение производительности или уязвимости. Определили, как эти риски повлияют на ИТ-услуги, финансы или репутацию компании.
На базе анализа ранжировали все элементы, которые влияют на ИТ-услуги. Установили RTO (recovery time objective) и RPO (recovery point objective), определили приоритетность восстановления каждого внутреннего ресурса или сервиса.
Зарезервировали и продублировали все, что нужно для работы критически важных ресурсов и сервисов. Затем описали, как запускать резервные мощности, и проверили, что процедуры работают.
Установили, какие значения доступности и безопасности для сервисов считаются нормой, а какие — нет. Настроили мониторинг, который помогает это отслеживать (подробнее об этом мы писали здесь).
Создали автоматическое реагирование на сбои. Также предусмотрели процессы с ручной диагностикой. Это позволяет отвечать на проактивные алерты, аварийные инциденты и восстанавливать доступность сервисов».
А предыдущую часть серии можно найти по ссылке.
#Ирина_поддержи
❤ 11
👍 6
⚡ 5
1 570
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram