ЦЕЛИ И ЗАДАЧИ
-
Бизнес-задача
Бесперебойная работа производства, предотвращение возможных простоев в случае аварийных ситуаций и связанных с ними финансовых потерь.
-
ИТ-задача
Построение ИТ-инфраструктуры высокой готовности для обеспечения отказоустойчивости любых сервисов, в том числе производственных. Разработка типовых решений для защиты критичных систем и прописание необходимых SLA. Возможность постоянного контроля доступности всех компонентов ИТ-комплекса.
РЕШЕНИЕ
- Распределенный виртуализированный комплекс на базе двух ЦОД
- В составе решения: виртуальные фермы, кластеры баз данных, сети хранения и системы резервного копирования от различных вендоров (EMC, IBM и VMware)
- Комплекс по аналитическому мониторингу
РЕАЛИЗАЦИЯ
ИТ-платформа высокой готовности построена на базе двух ЦОД и представляет собой распределенный виртуализованный вычислительный комплекс, который в штатной ситуации работает в режиме active-active. Для бесперебойного функционирования платформы детально проработана многоуровневая защита ИТ-сервисов, которую обеспечивает кластерная архитектура систем хранения и серверов баз данных.
Все данные отзеркалены между площадками, а виртуальные машины могут быть быстро перемещены из одного места в другое. Самые крупные из них (в несколько терабайт) реплицируются в дополнительное хранилище, что в случае аварии существенно сокращает время восстановления сервиса (без необходимости восстанавливаться из резервной копии).
В целях безопасности служебные системы отделены межсетевым экраном. Для каждой из систем осуществляется резервное копирование, периодичность которого настраивается индивидуально в зависимости от критичности конкретного сервиса.
Разработана и прописана процедура аварийного восстановления (Disaster Recovery Plan) с подробным описанием методов и шагов по устранению сбоев при возникновении форс-мажорных ситуаций (определение необходимого состава специалистов, их задач и т.д.). Непрерывное сохранение изменений на дисковых массивах обеспечивает защиту баз данных от логических ошибок и дает возможность полностью воссоздать систему на момент времени, предшествовавший аварии. Комплекс по аналитическому мониторингу (системы мониторинга СХД, виртуальных машин и сетевой инфраструктуры), отслеживает работу ИТ-инфраструктуры в реальном времени.
РЕЗУЛЬТАТЫ
Детальные инструкции по эксплуатации и восстановлению платформы (для каждой системы обеспечиваются предсказуемые параметры SLA) позволили оптимизировать работу и взаимодействие специалистов и обеспечить эффективные механизмы контроля.
В общей сложности протестировано 16 типовых чрезвычайных ситуаций (выход из строя виртуальной инфраструктуры одной из площадок, полное или частичное разрушение базы данных, потеря конфигурации SAN и т.д.), по каждой из которых отработана система действий по восстановлению.
Специалистам «Инфоситемы Джет» удалось добиться почти уникального срока восстановления главных производственных ИТ-сервисов – при единичных сбоях время возобновления работы главных производственных ИТ-сервисов не превышает 40 минут. Кроме того, сведена к минимуму потеря данных в случае их повреждения (показатель Return Point Objective находится практически на нуле).
Применяемые технологии, а также разработанные в ходе проекта стандарты обслуживания платформы позволяют трансформировать его под запросы любого, даже очень масштабного производства.
-
21 час в день
Работает конвейер на производстве
-
До 40 минут
Возобновление работы критичных ИТ-сервисов (RTO) в случае аварии
-
16 типовых чрезвычайных ситуаций
Проработаны на тестовых испытаниях в качестве модели
-
⇒ 0
Объем потери данных (RPO) в случае аварии стремится к нулю