29.09.2023, 09:14
Количество просмотров 3106

Обеспечение бесперебойной работы ЦОД. Опыт МКБ

Как обеспечить бесперебойную работу ЦОД, рассказывает Виталий Трепыхалин, руководитель Дирекции информационных технологий МКБ.
Обеспечение бесперебойной работы ЦОД. Опыт МКБ

Центры обработки данных (ЦОД) играют ключевую роль в банковской индустрии — они контролируют проведение всех операций, хранят и обрабатывают огромный объем информации: данные клиентов, отчеты и финансовые документы. В 2022 году различные крупные международные компании, такие как Lufthansa, Tesla, Oracle, Azure, Twitter, потерпели значительные как финансовые, так и репутационные убытки из-за аварий в ЦОД.

Почему в МКБ решили обновить ЦОД

Банки регулярно обновляют свои ЦОД в соответствии со стратегическими целями и текущими потребностями. Чтобы постоянно находиться на острие технологических трендов, соответствовать возрастающим требованиям к безопасности и эффективности работы информационных систем и инфраструктуры банка, необходимо каждые 3-5 лет пересматривать политику в отношении использования ЦОД.

До 2020 года мы использовали серверные помещения в главных офисах банка в Москве. Проблем или сбоев банк не испытывал, потому что были регулярное техническое обеспечение и круглосуточная дежурная служба. При этом было несколько минусов:

●      Недостаток энергопитания для собственных ЦОД. Помещения не были специально предназначены для обеспечения высокой энергоэффективности и удовлетворения потребностей серверного оборудования.

●      Ограниченное количество площадей для дальнейшего роста — только 30 стоек. Если банк планирует расширять свою деятельность и увеличивать объемы данных и серверов, то это может стать ограничивающим фактором, а внедрение новых технологий и современных решений будет затруднительным или невозможным.

В нашем случае главной причиной миграции в коммерческие ЦОД из собственных является динамичный рост бизнеса, увеличение клиентской базы и новые технологические вызовы, требующие современных высоконадежных решений.

Что мы сделали

С 2021 года начата реализация стратегии по перенесению информационных систем МКБ во внешние коммерческие ЦОД, которые сертифицированы по уровню надежности TIER 3. Они обеспечивают двойное резервирование критических систем, включая электропитание и охлаждение. Такой подход исключает перерывы из-за плановых работ или аварийных ситуаций. Также при построении архитектуры систем в банке учитывается геораспределенная отказоустойчивость, которая гарантирована разнесением ЦОД на расстоянии более 30 км друг от друга, а также технологическими средствами по резервированию. Каждый ЦОД имеет не менее 3-х каналов с пропускной способностью более 80Gb/s до соседних площадок, что дает доступность в 99,99% и высокую производительность. Собственные ЦОД продолжают использоваться для непродуктивных задач.

С целью минимизации серверной инфраструктуры в банке 90% всех систем виртуализировано, при этом используются индивидуальные настройки под каждое приложение. За счет проработанной архитектуры кластеров виртуализации удается минимизировать количество используемых стойко-мест, энергопотребление, кондиционирование и оптимально использовать серверные ресурсы и ресурсы систем хранения данных.

Сейчас МКБ занимает лидирующую позицию в банковской индустрии по используемому минимальному количеству стоек по отношению к масштабам бизнеса компании.

Для банка важно обеспечить непрерывность и надежность всех проводимых операций. Инфраструктура в данном процессе базируется на четырех пунктах:

  1. Мониторинг состояния серверов, сети и других системных компонентов. В реальном времени собираются данные о работе аппаратного и программного обеспечения, об использовании ресурсов и обнаружении потенциальных проблем. Мониторинг позволяет оперативно реагировать на сбои или проблемы и предотвращать негативные последствия для банка и клиентов. Используются собственные технологии мониторинга ИТ-инфраструктуры ЦОД, которые обеспечивают работоспособность вне зависимости от доступности любых компонентов ЦОД.                                                       
  2. Автоматизированные решения для управления и контроля инфраструктуры: автоматическое управление энергоэффективностью, распределение трафика, резервное копирование данных и другие задачи. Автоматика позволяет оптимизировать работу ЦОД, улучшать эффективность и минимизировать риски ошибок человеческого фактора.
  3. Регулярное техническое обслуживание: проверка и обновление серверов, сетевых устройств, систем хранения данных, систем охлаждения и электропитания. Это помогает поддерживать стабильную работу ЦОД, предотвращать сбои и минимизировать риски непредвиденных ситуаций.

  4. Тестирование планов восстановления после аварий. Регулярная проверка работоспособности резервных конфигураций от отдельных систем и групп систем, объединенных по направлениям деятельности и бизнес-процессам к ЦОД в целом. Тренировка сотрудников банка. Выявление и устранение единых точек отказа (SPOF).

Для оценки уровня отказоустойчивости используется уникальная методика на соответствие ИТ-инфраструктуры банка принятой Технической политике. Методика позволяет количественно в цифрах, а не интуитивно оценить динамику повышения надежности ИТ-систем и core-инфраструктуры, указывает на проблемные места и дает представление об уровне отказоустойчивости в разрезе конкретных ИТ-систем и ИТ-инфраструктуры в целом.

Как перенос систем отразился на бизнесе

Миграция систем в коммерческие ЦОД с высоким уровнем доступности не самый простой процесс. Пока клиенты получают услуги 24/7, банк должен мигрировать системы, а иногда переносить их физически. Для этого нужно много времени и сил как на подготовку, так и на реализацию проекта. Сейчас процесс миграции всех ключевых систем завершен. Появился запас прочности, а проведенный комплекс работ позволил сохранить производительность приложений при условии роста клиентов и регулярном внедрении изменений в приложения.

Миграция каждой системы включает аудит и обновление всех ресурсов. В результате использования нового оборудования, работа систем значительно улучшилась. Отказоустойчивость ИТ-систем банка повысилась благодаря изменению архитектуры и увеличению производительности. Некоторые системы показали улучшение производительности в 1,5-2 раза после актуализации архитектуры.

Банки должны быть в курсе последних ИТ-трендов и готовы быстро адаптироваться к новым технологиям. Это особенно важно, поскольку финансовые организации активно используют банкоматы, отделения и онлайн-сервисы, которые генерируют и обмениваются огромными объемами данных. Эти данные обрабатываются и хранятся в дата-центрах. Учитывая высокий уровень автоматизации процессов в банковской сфере, недоступность систем и простои могут серьезно навредить бизнесу.

Рубрика:
{}Технологии
Новости в вашей почте
mail

PLUSworld в соцсетях:
telegram
vk
dzen
youtube
ЕЩЁ НОВОСТИ