Любой, даже небольшой перерыв в деятельности компании, как правило, оборачивается для нее потерей клиентов, снижением доходов, наносит ущерб имиджу и репутации. Для современной компании непрерывность деятельности тесно связана с обеспечением бесперебойной работы ИС. Создание систем высокой доступности позволяет минимизировать простои в работе ИС, связанные со сбоями программного и аппаратного обеспечения или необходимостью планового обслуживания. Однако для защиты от чрезвычайных обстоятельств нужно нечто большее

К счастью, чрезвычайные происшествия техногенного, природного или иного характера, способные частично или полностью уничтожить ИТ–инфраструктуру предприятия, случаются нечасто. Но в современных условиях весь бизнес компании может оказаться под угрозой, если действия в критической ситуации не были продуманы заранее. Для минимизации рисков компании необходимы катастрофоустойчивая инфраструктура, технологии защиты данных, обученный персонал и планы аварийного восстановления ИТ-сервисов.

Разработка стратегии обеспечения непрерывности ИТ-сервисов

Планирование непрерывной деятельности – постоянная забота руководителей, заинтересованных в сохранении и развитии бизнеса. С ростом значимости информационных систем для современного бизнеса стратегия обеспечения непрерывности их работы становится неотъемлемым элементом общей стратегии компании.

43% компаний, пострадавших от катастроф и переживших крупную необратимую потерю корпоративных данных, не смогли продолжить свою деятельность.

Источник: Gartner

В первую очередь, в рамках разработки стратегии непрерывности деятельности составляется подробная спецификация возможных угроз и наиболее вероятных последствий, а также изучается их влияние на информационные системы и опорную инфраструктуру. Графически это может быть представлено в виде карты рисков.
Для наиболее существенных рисков, с которыми компания может столкнуться (пожар, отключение электроснабжения, взрыв и т.д.), разрабатываются подробные планы действий, направленные на минимизацию последствий от происшествия.


Карта рисков и угроз для нормального функционирования КИС
Зона I - риски, которые компания готова принять
Зона II – риски, которые нужно контролировать и принимать меры по их снижению
Зона III – риски, требующие превентивных мер по их предотвращению или снижению их влияния

Возможные примеры рисков:
1 – теракты, разрушение здания
2 - повреждение одного из каналов связи в связи с несогласованными ремонтными работами в здании
3 – выход из строя рабочей станции
4 - долгосрочное отключение электроэнергии в здании

Стратегический подход к планированию непрерывной работы позволяет наиболее эффективно организовать резервирование критичных для бизнеса сервисов ИС. Кроме того, он гарантирует готовность компании к чрезвычайным ситуациям и дает уверенность в том, что компания способна справиться с кризисом. Все это существенно сокращает непредвиденные расходы и позволяет свести к минимуму потери в случае аварий и бедствий.

Планы аварийного восстановления

35% западных компаний финансового сектора имеют аварийные планы с регламентным временем восстановления менее 4 часов.  В России таких компаний  на порядок меньше.

Источник: Gartner

Подробные планы действий в случае аварий и катастроф помогают действовать эффективно и гарантируют, что ни один важный аспект не будет упущен. План аварийного восстановления – это подробный перечень мероприятий и действий, которые необходимо выполнить «до», «во время» и «после» возникновения чрезвычайной ситуации. Здесь определяется порядок уведомления руководителей и ответственных сотрудников, а также излагаются детальные инструкции для исполнителей. Все это позволяет максимально быстро восстановить работоспособность важных информационных систем и сервисов. Сроки восстановления четко регламентируются в зависимости от требований и специфики работы компании-заказчика. Приемлемое для бизнеса время восстановления является одним из ключевых факторов, от которого зависит выбор стратегии резервирования оборудования и способа репликации данных. Как правило, наиболее требовательны к времени восстановления (менее 4 часов) компании финансового сектора, сектора телекоммуникаций и связи, а также транспортные компании (авиа- и ж\д- перевозчики).
В процессе реализации программ обеспечения непрерывности деятельности, специалисты компании «Инфосистемы Джет» уделяют особое внимание процедурам тестирования разработанных регламентов с целью проверки их эффективности. Внедрение стратегии обеспечения непрерывности должно сопровождаться мероприятиями по обучению персонала и обеспечению готовности всех служб компании к чрезвычайной ситуации. Регулярные проверки и учения позволяют убедиться в работоспособности и эффективности разработанного плана и гарантируют, что все необходимые действия будут выполнены и в случае аварии.

Резервирование ресурсов

Обладая значительным уровнем компетенции и практическим опытом реализаций, компания «Инфосистемы Джет» готова предложить заказчику решение по обеспечению непрерывности деятельности с любым уровнем резервирования.
Уровень резервирования информационной системы зависит от ее значимости для бизнеса компании, а также от чувствительности бизнеса к времени простоя. Для систем второстепенного значения это может быть просто серверная площадка, оборудованная необходимыми инженерными системами и подготовленная для установки серверного оборудования. Такой подход позволяет восстановить работу системы в течение нескольких дней. Для более важных систем удаленный вычислительный центр должен содержать все необходимое оборудование, чтобы в случае катастрофы можно было быстро запустить резервную систему. А для наиболее критичных систем дополнительно необходимы системы репликации данных и планы аварийного восстановления, обеспечивающие сохранность данных и непрерывность функционирования ИС.  

Репликация данных

При чрезвычайных ситуациях наибольший ущерб компании наносят потеря данных и невозможность доступа к ним. Минимизация этих рисков достигается за счет резервирования ресурсов (серверов, систем хранения, каналов связи), репликации и резервного копирования.
Решения компании «Инфосистемы Джет» в области репликации данных реализуются с учетом специфики бизнес-процессов компании-заказчика. Разнообразие схем и вариантов обеспечивает возможность выбора наиболее эффективного и рационального решения для каждой конкретной задачи.
Так, например, периодическая репликация (репликация по расписанию) помогает сохранить в удаленном центре копию данных на фиксированный момент времени в прошлом. Основной недостаток этого метода – потеря актуальности данных за период времени, равный интервалу между репликациями. Тем не менее, репликация по расписанию – весьма экономное решение, отлично подходящее компаниям, для которых время восстановления не является критически важным, а также допускается незначительная потеря данных.
Синхронная репликация гарантирует самый высокий уровень надежности, обеспечивая идентичность всех копий данных. Предъявляя высокие требования к каналам связи, синхронная репликация чаще всего применяется для наиболее важных приложений, где необходима максимальная защита данных.
Асинхронная репликация обеспечивает непрерывность передачи данных, причем даже в условиях нестабильности каналов связи. Этот способ помогает сохранить высокую производительность информационных систем и контролировать загрузку каналов передачи данных, но не обеспечивает столь же высокий уровень актуальности данных как синхронная репликация.
В последнее время часто применяются схемы множественной репликации, когда данные передаются из основного вычислительного центра сразу в несколько резервных центров. Нередко в этих случаях даже применяются разные способы репликации для обеспечения более надежной и комплексной защиты данных ИС.


Распределенные сети хранения данных

Обеспечение сохранности важных данных в случае возникновения чрезвычайной ситуации обеспечивается при помощи систем репликации и резервного копирования. Для работы этих систем необходимы надежные и высокопроизводительные каналы передачи данных. Наиболее эффективным способом объединения систем хранения и обеспечения надежной среды для репликации являются сети хранения данных (SAN).
Наибольшее распространение получили сети хранения данных, построенные на базе технологии Fibre Channel, но, поскольку катастрофоустойчивые вычислительные центры часто разнесены на значительные расстояния (десятки, сотни и даже тысячи километров), возможны специализированные распределенные решения. Объединение SAN с помощью IP-сетей имеет меньшую производительность, но за счет широкой распространенности и низкой стоимости IP-каналов этот вариант может быть более доступен. Сети хранения данных с применением технологий DWDM и CWDM обеспечивают передачу данных на большие расстояния с высокой скоростью. В решениях этого класса используются оптоволоконные распределенные сети, в том числе уже существующие сети глобальных операторов связи.

Опыт создания катастрофоустойчивых решений

Один из крупнейших проектов в области BСP/DRP был реализован компанией «Инфосистемы Джет» в 2007 году для ОАО «ВымпелКом». В рамках проекта был  построен и оснащен резервный вычислительный центр, обеспечена бесперебойность работы критических бизнес-приложений и сохранность данных. Кроме того, были разработаны практические процедуры, тренинги и документация, основывающиеся на спецификации BS PAS 56 и передовом мировом опыте