Обеспечение бесперебойной работы ЦОД. Опыт МКБ
Центры обработки данных (ЦОД) играют ключевую роль в банковской индустрии — они контролируют проведение всех операций, хранят и обрабатывают огромный объем информации: данные клиентов, отчеты и финансовые документы. В 2022 году различные крупные международные компании, такие как Lufthansa, Tesla, Oracle, Azure, Twitter, потерпели значительные как финансовые, так и репутационные убытки из-за аварий в ЦОД.
Почему в МКБ решили обновить ЦОД
Банки регулярно обновляют свои ЦОД в соответствии со стратегическими целями и текущими потребностями. Чтобы постоянно находиться на острие технологических трендов, соответствовать возрастающим требованиям к безопасности и эффективности работы информационных систем и инфраструктуры банка, необходимо каждые 3-5 лет пересматривать политику в отношении использования ЦОД.
До 2020 года мы использовали серверные помещения в главных офисах банка в Москве. Проблем или сбоев банк не испытывал, потому что были регулярное техническое обеспечение и круглосуточная дежурная служба. При этом было несколько минусов:
● Недостаток энергопитания для собственных ЦОД. Помещения не были специально предназначены для обеспечения высокой энергоэффективности и удовлетворения потребностей серверного оборудования.
● Ограниченное количество площадей для дальнейшего роста — только 30 стоек. Если банк планирует расширять свою деятельность и увеличивать объемы данных и серверов, то это может стать ограничивающим фактором, а внедрение новых технологий и современных решений будет затруднительным или невозможным.
В нашем случае главной причиной миграции в коммерческие ЦОД из собственных является динамичный рост бизнеса, увеличение клиентской базы и новые технологические вызовы, требующие современных высоконадежных решений.
Что мы сделали
С 2021 года начата реализация стратегии по перенесению информационных систем МКБ во внешние коммерческие ЦОД, которые сертифицированы по уровню надежности TIER 3. Они обеспечивают двойное резервирование критических систем, включая электропитание и охлаждение. Такой подход исключает перерывы из-за плановых работ или аварийных ситуаций. Также при построении архитектуры систем в банке учитывается геораспределенная отказоустойчивость, которая гарантирована разнесением ЦОД на расстоянии более 30 км друг от друга, а также технологическими средствами по резервированию. Каждый ЦОД имеет не менее 3-х каналов с пропускной способностью более 80Gb/s до соседних площадок, что дает доступность в 99,99% и высокую производительность. Собственные ЦОД продолжают использоваться для непродуктивных задач.
С целью минимизации серверной инфраструктуры в банке 90% всех систем виртуализировано, при этом используются индивидуальные настройки под каждое приложение. За счет проработанной архитектуры кластеров виртуализации удается минимизировать количество используемых стойко-мест, энергопотребление, кондиционирование и оптимально использовать серверные ресурсы и ресурсы систем хранения данных.
Сейчас МКБ занимает лидирующую позицию в банковской индустрии по используемому минимальному количеству стоек по отношению к масштабам бизнеса компании.
Для банка важно обеспечить непрерывность и надежность всех проводимых операций. Инфраструктура в данном процессе базируется на четырех пунктах:
- Мониторинг состояния серверов, сети и других системных компонентов. В реальном времени собираются данные о работе аппаратного и программного обеспечения, об использовании ресурсов и обнаружении потенциальных проблем. Мониторинг позволяет оперативно реагировать на сбои или проблемы и предотвращать негативные последствия для банка и клиентов. Используются собственные технологии мониторинга ИТ-инфраструктуры ЦОД, которые обеспечивают работоспособность вне зависимости от доступности любых компонентов ЦОД.
- Автоматизированные решения для управления и контроля инфраструктуры: автоматическое управление энергоэффективностью, распределение трафика, резервное копирование данных и другие задачи. Автоматика позволяет оптимизировать работу ЦОД, улучшать эффективность и минимизировать риски ошибок человеческого фактора.
-
Регулярное техническое обслуживание: проверка и обновление серверов, сетевых устройств, систем хранения данных, систем охлаждения и электропитания. Это помогает поддерживать стабильную работу ЦОД, предотвращать сбои и минимизировать риски непредвиденных ситуаций.
-
Тестирование планов восстановления после аварий. Регулярная проверка работоспособности резервных конфигураций от отдельных систем и групп систем, объединенных по направлениям деятельности и бизнес-процессам к ЦОД в целом. Тренировка сотрудников банка. Выявление и устранение единых точек отказа (SPOF).
Для оценки уровня отказоустойчивости используется уникальная методика на соответствие ИТ-инфраструктуры банка принятой Технической политике. Методика позволяет количественно в цифрах, а не интуитивно оценить динамику повышения надежности ИТ-систем и core-инфраструктуры, указывает на проблемные места и дает представление об уровне отказоустойчивости в разрезе конкретных ИТ-систем и ИТ-инфраструктуры в целом.
Как перенос систем отразился на бизнесе
Миграция систем в коммерческие ЦОД с высоким уровнем доступности не самый простой процесс. Пока клиенты получают услуги 24/7, банк должен мигрировать системы, а иногда переносить их физически. Для этого нужно много времени и сил как на подготовку, так и на реализацию проекта. Сейчас процесс миграции всех ключевых систем завершен. Появился запас прочности, а проведенный комплекс работ позволил сохранить производительность приложений при условии роста клиентов и регулярном внедрении изменений в приложения.
Миграция каждой системы включает аудит и обновление всех ресурсов. В результате использования нового оборудования, работа систем значительно улучшилась. Отказоустойчивость ИТ-систем банка повысилась благодаря изменению архитектуры и увеличению производительности. Некоторые системы показали улучшение производительности в 1,5-2 раза после актуализации архитектуры.
Банки должны быть в курсе последних ИТ-трендов и готовы быстро адаптироваться к новым технологиям. Это особенно важно, поскольку финансовые организации активно используют банкоматы, отделения и онлайн-сервисы, которые генерируют и обмениваются огромными объемами данных. Эти данные обрабатываются и хранятся в дата-центрах. Учитывая высокий уровень автоматизации процессов в банковской сфере, недоступность систем и простои могут серьезно навредить бизнесу.