ИТ-ПЛАТФОРМА ВЫСОКОЙ ГОТОВНОСТИ

Фольксваген групп

ЦЕЛИ И ЗАДАЧИ

  • Бизнес-задача

    Бесперебойная работа производства, предотвращение возможных простоев в случае аварийных ситуаций и связанных с ними финансовых потерь.

  • ИТ-задача

    Построение ИТ-инфраструктуры высокой готовности для обеспечения отказоустойчивости любых сервисов, в том числе производственных. Разработка типовых решений для защиты критичных систем и прописание необходимых SLA. Возможность постоянного контроля доступности всех компонентов ИТ-комплекса.

РЕШЕНИЕ

  • Распределенный виртуализированный комплекс на базе двух ЦОД
  • В составе решения: виртуальные фермы, кластеры баз данных, сети хранения и системы резервного копирования от различных вендоров (EMC, IBM и VMware)
  • Комплекс по аналитическому мониторингу
Решить похожую задачу

РЕАЛИЗАЦИЯ

ИТ-платформа высокой готовности построена на базе двух ЦОД и представляет собой распределенный виртуализованный вычислительный комплекс, который в штатной ситуации работает в режиме active-active. Для бесперебойного функционирования платформы детально проработана многоуровневая защита ИТ-сервисов, которую обеспечивает кластерная архитектура систем хранения и серверов баз данных.

Все данные отзеркалены между площадками, а виртуальные машины могут быть быстро перемещены из одного места в другое. Самые крупные из них (в несколько терабайт) реплицируются в дополнительное хранилище, что в случае аварии существенно сокращает время восстановления сервиса (без необходимости восстанавливаться из резервной копии).

В целях безопасности служебные системы отделены межсетевым экраном. Для каждой из систем осуществляется резервное копирование, периодичность которого настраивается индивидуально в зависимости от критичности конкретного сервиса.

Разработана и прописана процедура аварийного восстановления (Disaster Recovery Plan) с подробным описанием методов и шагов по устранению сбоев при возникновении форс-мажорных ситуаций (определение необходимого состава специалистов, их задач и т.д.). Непрерывное сохранение изменений на дисковых массивах обеспечивает защиту баз данных от логических ошибок и дает возможность полностью воссоздать систему на момент времени, предшествовавший аварии. Комплекс по аналитическому мониторингу (системы мониторинга СХД, виртуальных машин и сетевой инфраструктуры), отслеживает работу ИТ-инфраструктуры в реальном времени.

Раскрыть

РЕЗУЛЬТАТЫ

Новая ИТ-инфраструктура обеспечивает необходимую для компании отказоустойчивость при функционировании практически круглые сутки. Анализ доступности и производительности системы, исправности оборудования, работоспособности системного ПО и СУБД, достаточности ресурсов производится в режиме постоянного мониторинга. Для наглядности необходимые показатели сведены на единых информационных панелях, что позволяет в реальном времени получать полную картину состояния ИТ.

Детальные инструкции по эксплуатации и восстановлению платформы (для каждой системы обеспечиваются предсказуемые параметры SLA) позволили оптимизировать работу и взаимодействие специалистов и обеспечить эффективные механизмы контроля.

В общей сложности протестировано 16 типовых чрезвычайных ситуаций (выход из строя виртуальной инфраструктуры одной из площадок, полное или частичное разрушение базы данных, потеря конфигурации SAN и т.д.), по каждой из которых отработана система действий по восстановлению.

Специалистам «Инфоситемы Джет» удалось добиться почти уникального срока восстановления главных производственных ИТ-сервисов – при единичных сбоях время возобновления работы главных производственных ИТ-сервисов не превышает 40 минут. Кроме того, сведена к минимуму потеря данных в случае их повреждения (показатель Return Point Objective находится практически на нуле).

Применяемые технологии, а также разработанные в ходе проекта стандарты обслуживания платформы позволяют трансформировать его под запросы любого, даже очень масштабного производства.
  • 21 час в день

    Работает конвейер на производстве

  • До 40 минут

    Возобновление работы критичных ИТ-сервисов (RTO) в случае аварии

  • 16 типовых чрезвычайных ситуаций

    Проработаны на тестовых испытаниях в качестве модели

  • ⇒ 0

    Объем потери данных (RPO) в случае аварии стремится к нулю

ОТЗЫВ КЛИЕНТА

Переносить производственные системы на новую инфраструктуру можно только во время трехнедельного заводского отпуска. Когда мы взялись за проект, на развертывание и тестирование вычислительного комплекса оставалось чуть больше пары месяцев. Это примерно в два раза меньше обычных сроков, однако опыт и наработки предыдущих проектов позволили нам организовать практически одновременное проектирование и внедрение компонентов инфраструктуры и в итоге соблюсти жесткие временные рамки.

Алексей Кульпин

Менеджер по работе с корпоративными клиентами компании «Инфосистемы Джет»

У ВАС ПОХОЖАЯ ЗАДАЧА?

Сайт использует файлы cookies. Продолжая использование настоящего сайта, вы выражаете своё согласие на использование файлов cookies в соответствии с Политикой обработки персональных данных. В случае несогласия с обработкой ваших персональных данных вы можете отключить сохранение cookie в параметрах настройки вашего браузера.


Читать полностью