Главная / Проекты / ИТ-ПЛАТФОРМА ВЫСОКОЙ ГОТОВНОСТИ

ИТ-ПЛАТФОРМА ВЫСОКОЙ ГОТОВНОСТИ

ЦЕЛИ И ЗАДАЧИ

Бизнес-задача

Бесперебойная работа производства, предотвращение возможных простоев в случае аварийных ситуаций и связанных с ними финансовых потерь.
ИТ-задача

Построение ИТ-инфраструктуры высокой готовности для обеспечения отказоустойчивости любых сервисов, в том числе производственных. Разработка типовых решений для защиты критичных систем и прописание необходимых SLA. Возможность постоянного контроля доступности всех компонентов ИТ-комплекса.

РЕШЕНИЕ

Распределенный виртуализированный комплекс на базе двух ЦОД
В составе решения: виртуальные фермы, кластеры баз данных, сети хранения и системы резервного копирования от различных вендоров (EMC, IBM и VMware)
Комплекс по аналитическому мониторингу

РЕАЛИЗАЦИЯ

ИТ-платформа высокой готовности построена на базе двух ЦОД и представляет собой распределенный виртуализованный вычислительный комплекс, который в штатной ситуации работает в режиме active-active. Для бесперебойного функционирования платформы детально проработана многоуровневая защита ИТ-сервисов, которую обеспечивает кластерная архитектура систем хранения и серверов баз данных.

Все данные отзеркалены между площадками, а виртуальные машины могут быть быстро перемещены из одного места в другое. Самые крупные из них (в несколько терабайт) реплицируются в дополнительное хранилище, что в случае аварии существенно сокращает время восстановления сервиса (без необходимости восстанавливаться из резервной копии).

В целях безопасности служебные системы отделены межсетевым экраном. Для каждой из систем осуществляется резервное копирование, периодичность которого настраивается индивидуально в зависимости от критичности конкретного сервиса.

Разработана и прописана процедура аварийного восстановления (Disaster Recovery Plan) с подробным описанием методов и шагов по устранению сбоев при возникновении форс-мажорных ситуаций (определение необходимого состава специалистов, их задач и т.д.). Непрерывное сохранение изменений на дисковых массивах обеспечивает защиту баз данных от логических ошибок и дает возможность полностью воссоздать систему на момент времени, предшествовавший аварии. Комплекс по аналитическому мониторингу (системы мониторинга СХД, виртуальных машин и сетевой инфраструктуры), отслеживает работу ИТ-инфраструктуры в реальном времени.

Раскрыть

РЕЗУЛЬТАТЫ

Новая ИТ-инфраструктура обеспечивает необходимую для компании отказоустойчивость при функционировании практически круглые сутки. Анализ доступности и производительности системы, исправности оборудования, работоспособности системного ПО и СУБД, достаточности ресурсов производится в режиме постоянного мониторинга. Для наглядности необходимые показатели сведены на единых информационных панелях, что позволяет в реальном времени получать полную картину состояния ИТ.

Детальные инструкции по эксплуатации и восстановлению платформы (для каждой системы обеспечиваются предсказуемые параметры SLA) позволили оптимизировать работу и взаимодействие специалистов и обеспечить эффективные механизмы контроля.

В общей сложности протестировано 16 типовых чрезвычайных ситуаций (выход из строя виртуальной инфраструктуры одной из площадок, полное или частичное разрушение базы данных, потеря конфигурации SAN и т.д.), по каждой из которых отработана система действий по восстановлению.

Специалистам «Инфоситемы Джет» удалось добиться почти уникального срока восстановления главных производственных ИТ-сервисов – при единичных сбоях время возобновления работы главных производственных ИТ-сервисов не превышает 40 минут. Кроме того, сведена к минимуму потеря данных в случае их повреждения (показатель Return Point Objective находится практически на нуле).

Применяемые технологии, а также разработанные в ходе проекта стандарты обслуживания платформы позволяют трансформировать его под запросы любого, даже очень масштабного производства.

21 час в день
Работает конвейер на производстве
До 40 минут
Возобновление работы критичных ИТ-сервисов (RTO) в случае аварии
16 типовых чрезвычайных ситуаций
Проработаны на тестовых испытаниях в качестве модели
⇒ 0
Объем потери данных (RPO) в случае аварии стремится к нулю

ОТЗЫВ КЛИЕНТА

Переносить производственные системы на новую инфраструктуру можно только во время трехнедельного заводского отпуска. Когда мы взялись за проект, на развертывание и тестирование вычислительного комплекса оставалось чуть больше пары месяцев. Это примерно в два раза меньше обычных сроков, однако опыт и наработки предыдущих проектов позволили нам организовать практически одновременное проектирование и внедрение компонентов инфраструктуры и в итоге соблюсти жесткие временные рамки.

Алексей Кульпин

Менеджер по работе с корпоративными клиентами компании «Инфосистемы Джет»

У ВАС ПОХОЖАЯ ЗАДАЧА?

Укажите имя Имя*

Введите корректный e-mail E-mail*

Заполните телефон Телефон

Пожалуйста, выберите компанию Компания*

Пожалуйста, укажите должность Должность

Комментарий Комментарий

Принимаю условия обработки данных и ознакомлен с Политикой обработки персональных данных