ИТ-платформа высокой готовности для «ФОЛЬКСВАГЕН Груп Рус»

Заказчик: ФОЛЬКСВАГЕН Груп Рус

«ФОЛЬКСВАГЕН Груп Рус» объединяет на российском рынке работу семи марок концерна Volkswagen – Volkswagen, ŠKODA, Audi, Volkswagen Коммерческие автомобили, SEAT, Bentley и Lamborghini. С 2007 г. компания производит автомобили в Калуге. В 2009 г. на заводе в Калуге было запущено производство полного цикла. C объемом инвестиций, составляющим 1,3 миллиарда евро, компания стала одним из крупнейших инвесторов в российскую автомобильную промышленность.

Каждые 2 минуты с заводского конвейера «ФОЛЬКСВАГЕН Груп Рус» сходит один автомобиль. Конвейер работает 250 дней в году, 21 час в день. Такой плотный производственный цикл предъявляет повышенные требования к надежности работы ИТ-комплекса, поддерживающего производственные процессы.

«Для предотвращения возможных простоев в случае аварийных ситуаций и связанных с этим финансовых потерь было принято решение строить инфраструктуру высокой готовности, – поясняет главный конструктор проекта Вячеслав Медведев. – С технической точки зрения это означало решение сразу нескольких задач. Во-первых, нам предстояло разработать типовые решения для защиты критичных систем и обеспечить требуемые бизнесу SLA. Во-вторых, внедрить инструменты мониторинга и обеспечить возможность постоянного контроля доступности всех компонентов ИТ-комплекса. Кроме того, требовалось подготовить ИТ-платформу для обслуживания различными отделами. И, наконец, внедрить инструменты планирования развития ИТ».

О проекте коротко

Создана единая платформа для обеспечения отказоустойчивости любых ИТ-сервисов, в том числе производственных.

Распределенный виртуализованный ЦОД защищает ИТ-сервисы как от единичных сбоев, так и от полной потери одной из площадок.

Многоуровневая система защиты ИТ-сервисов и данных от программных и аппаратных сбоев обеспечивает необходимый бизнесу уровень отказоустойчивости критичных систем.

Проработанные процедуры аварийного восстановления помогают добиться гарантированного восстановления систем в заранее определенные сроки.

Комплекс по оперативному и аналитическому мониторингу позволяет отслеживать тенденции в работе ИТ-инфраструктуры и принимать проактивные меры.

Показатели. В случае аварии:

возобновление работы критичных ИТ-сервисов (RTO) – до 40 минут,

объем потери данных (RPO) стремится к нулю.

Вычислительный комплекс в рекордные сроки

ИТ-платформа высокой готовности построена на базе двух ЦОД и представляет собой распределенный виртуализованный вычислительный комплекс, который при штатном функционировании работает в режиме active-active. В составе решения – виртуальные фермы, кластеры баз данных, сети хранения и системы резервного копирования. В целях безопасности служебные инфраструктурные системы, общие для производственных и офисных ИТ-систем, отделены межсетевым экраном.

Для различных участков ИТ-ландшафта «ФОЛЬКСВАГЕН Груп Рус» были разработаны рекомендации по миграции прикладной среды на новую платформу и инструкции по восстановлению работоспособности в случае сбоя. Первые шесть систем, наиболее критичных, были мигрированы при поддержке специалистов компании «Инфосистемы Джет».

«Переносить производственные системы на новую инфраструктуру можно только во время 3-недельного заводского отпуска. Когда мы ”пришли” в проект, на развертывание и тестирование вычислительного комплекса оставалось всего 2,5 месяца. Это примерно в 2 раза меньше обычных сроков, но именно столько времени оставалось до планируемой миграции приложений, – рассказывает менеджер по работе с корпоративными клиентами компании ”Инфосистемы Джет” Алексей Кульпин.Опыт и наработки предыдущих проектов позволили нам организовать практически одновременное проектирование и внедрение компонентов инфраструктуры и в итоге соблюсти жесткие временные рамки».

Конвейер должен работать как часы

Для обеспечения высокой готовности детально проработана многоуровневая система защиты ИТ-сервисов и данных от аппаратных и программных сбоев. Технологии и механизмы подбирались исходя из требований бизнеса к уровню отказоустойчивости критичных систем.

Защиту ИТ-сервисов от сбоев оборудования обеспечивает кластерная архитектура систем хранения, серверов баз данных и серверов приложений. Данные зеркалируются между площадками, а виртуальные машины при необходимости перемещаются по заранее настроенным механизмам. При этом содержание достаточно крупных виртуальных машин (в несколько терабайт) реплицируется в дополнительное хранилище, что в случае аварии помогает сократить время восстановления сервиса, т.к. нет необходимости восстанавливаться из резервной копии.

Для защиты баз данных от логических ошибок применяется непрерывное журналирование изменений на дисковых массивах. Эта относительно новая технология дает возможность восстановить состояние системы на момент времени, предшествовавший аварии. Кроме того, для каждой из систем осуществляется резервное копирование, периодичность которого настраивается индивидуально в зависимости от критичности ИТ-сервиса.

Другой важной составляющей в обеспечении непрерывности бизнеса стала детальная проработка процедур аварийного восстановления (Disaster Recovery, DR). Были созданы подробнейшие DR-планы с описанием методов диагностики и устранения сбоев в установленные сроки. Специально разработанные инструкции позволяют эффективно управлять взаимодействием сотрудников ИТ-службы при возникновении аварий (определять необходимый состав и количество специалистов, их задачи и т.д.).

В общей сложности выделено 16 типовых чрезвычайных ситуаций (выход из строя виртуальной инфраструктуры одной из площадок, полное или частичное разрушение базы данных, потеря конфигурации SAN и т.д.). По всем типовым ситуациям проводились тестовые испытания.

«Мы добились того, чтобы при единичных сбоях время восстановления главных производственных ИТ-сервисов (показатель RTO, Return Time Objective) не превышало 40 минут, – поясняет Вячеслав Медведев. – Кроме того, обеспечена возможность избежать потери данных в случае их повреждения (т.е. свести к нулю показатель RPO, Return Point Objective). В условиях массового автоматизированного производства это насущная необходимость.

Постоянный контроль доступности компонентов ИТ-инфраструктуры обеспечивает комплекс по оперативному мониторингу, включающий системы мониторинга СХД, виртуальных машин и сетевой инфраструктуры.

Выявлять тренды развития ИТ-ландшафта помогает система анализа состояния ключевых технологических блоков на соответствие базовым показателям. Проектная команда разработала древовидную «модель здоровья» ИТ-комплекса, в которой отражены ключевые объекты программной и аппаратной среды, определены метрики, требующие мониторинга, и предельные пороговые значения по ним.

«Самая главная функция данной системы – анализ доступности и производительности инфраструктуры, исправности оборудования, работоспособности системного ПО и СУБД, достаточности ресурсов, а также прогнозирование сроков и объемов требуемого расширения, – поясняет заместитель директора Центра проектирования вычислительных комплексов компании “Инфосистемы Джет” Андрей Шапошников. – Необходимые показатели сведены на единых информационных панелях, что позволяет в реальном времени получать полную картину состояния ИТ».

Для каждой системы обеспечиваются предсказуемые параметры SLA. Детальные инструкции по эксплуатации и восстановлению ИТ-инфраструктуры позволили оптимизировать работу и взаимодействие ИТ-специалистов – это обеспечивает гарантированное качество сервиса и эффективные механизмы контроля. Применяемые технологии, а также разработанные стандарты развития и обслуживания ИТ-комплекса позволяют быстро трансформировать его под запросы бизнеса.

Скачать (pdf, 824.77 Кб)

ИТ-платформа высокой готовности для «ФОЛЬКСВАГЕН Груп Рус»