Как повысить отказоустойчивость ИТ-оборудования
Современные ИТ-системы должны работать непрерывно и безотказно, в случае простоя компания будет терять деньги, ведь бизнес-процессы напрямую зависят от бесперебойной работы ИТ-оборудования.
В материале рассказываем, какие факторы влияют на отказоустойчивость, почему она важна для бизнеса и как построить отказоустойчивую систему.
Что такое отказоустойчивость?
Отказоустойчивость — это способность системы или сети продолжать работу в случае сбоя одного из элементов. Это непрерывный процесс, в ходе которого ОС реагирует на неполадки в аппаратном или программном обеспечении.
Отказоустойчивость позволяет ИТ-инфраструктуре продолжать работу, предотвращая сбои, вызванные точкой отказа. Главная цель отказоустойчивой системы — предотвращение катастрофического отказа, при котором она останавливает работу и теряет данные.
Общая отказоустойчивость ИТ-системы распространяется как на систему в целом, так и на отдельные компоненты: системное и прикладное ПО, устройства и модули внутри устройств, целые площадки, если система предполагает распределенную архитектуру.
Ключевой аспект отказоустойчивой системы — избыточность, то есть наличие резервных компонентов для любой части системы.
Два метода реализации отказоустойчивости
Существует два подхода к построению отказоустойчивой системы.
Нормальное функционирование — в случае неисправности отказоустойчивая система продолжает работать в штатном режиме. В системе не происходит изменений производительности, например, сбой не влияет на время отклика или пропускную способность.
Плавный спад производительности — влияние неполадки пропорционально ее масштабу. Незначительный сбой скажется на производительности, а не приведет к полному отказу системы.
Почему важна отказоустойчивость ИТ-инфраструктуры
Отказоустойчивость — необходимый аспект высокой доступности приложений и непрерывной работы систем. Во многих отраслях обеспечение бесперебойной работы — обязательная спецификация оборудования.
Практически во всех сферах требуется отказоустойчивое оборудование: дистрибуция и логистика, производство и электростанции, промышленные системы управления и розничная торговля. Например, в сфере авиаперевозок отказоустойчивость важна для систем управления полетами и систем обработки транзакций для обеспечения бронирования авиабилетов.
Факторы, влияющие на функционирование ИТ-системы
Ключевой фактор — отсутствие единой точки отказа — это узел или объект системы, выход из строя которого приведет к сбою всей системы. Сложность современных приложений растет, становится все больше элементов системы, следовательно потенциальных точек отказа. К тому же, они могут находиться на разных уровнях архитектуры. Потенциально любая часть ИТ-инфраструктуры может стать точкой отказа, например, сервер, СХД, брандмауэр, источник питания или сетевой кабель.
К другим возможным сбоям относятся:
- отключение питания;
- скачок напряжения;
- несанкционированный доступ;
- вирусы и киберугрозы;
- перегрузка сети.
Инженерные системы ЦОД
Обеспечить бесперебойную работу поможет провайдер, для чего поставщик услуг проводит резервирование сетевых каналов, средств БП и обслуживание дата-центра. В зону ответственности провайдера входит постоянный мониторинг системы, плановое обслуживание, контроль доступа к ЦОД. На случай кризисной ситуации существует прописанная модель действий.
Схема избыточности переносится в масштаб дата-центра, когда на двух разных площадках строятся аналогичные инфраструктуры, связанные в единую сеть. Важный фактор отказоустойчивости ЦОД — географическая распределенность. Независимые друг от друга дата-центры ITGLOBAL.COM находятся в России, Казахстане и Нидерландах.
Аппаратная часть
Главный метод для построения аппаратной части отказоустойчивой архитектуры — резервирование, которое происходит на уровне логических модулей или оборудования. Например, СХД состоит из дублирующих элементов: контроллеры, сетевые адаптеры, БД. Если один выходит из строя, нагрузка перенаправляется на второй. Для корректной работы оборудование должно быть с аналогичными характеристиками.
Отказоустойчивые системы автоматически обнаруживают сбой процессора, материнской платы, носителя данных, подсистемы ввода-вывода или сетевого железа. Система немедленно выявляет точку отказа, ее заменяет резервный компонент.
При реализации отказоустойчивости организации используют избыточный массив независимых дисков (RAID). Технология RAID обеспечивает запись данных на несколько жестких дисков, что позволяет сбалансировать операции ввода-вывода и повысить общую производительность системы.
Программная часть
Отказоустойчивый кластер состоит из нескольких физических систем, которые совместно используют одну копию ОС. Программы выполняются на обоих системах.
Балансировщик нагрузки помогает распределять нагрузку таким образом, чтобы не было единой точки отказа. Также он обеспечивает репликацию — данные записываются на несколько машин, если сервер выходит из строя, система переключается на резервный. Кластер в режиме реального времени определяет, где находятся данные, и продолжает их использовать.
Другое необходимое для отказоустойчивой системы ПО — брокер сообщений — диспетчер, выступающий посредником между протоколами. Брокер преобразует сообщение одного протокола от приложения-источника (продюсера) в сообщение протокола принимающего приложения (консьюмера) и обеспечивает репликацию данных.
ОС для управления СХД ONTAP от вендора NetAPP обладает встроенной функциональностью для реализации резервной ИТ-площадки. Входящий в ONTAP инструмент SnapMirror — это средство асинхронной репликации данных между двумя физическими системами хранения. ПО позволяет реплицировать на резервную площадку все данные и настройки СХД.
Также NetAPP разработал продукт MetroCluster, который полностью резервирует все компоненты ЦОД на удаленной площадке. Даже если полностью отключится один из дата-центров, второй полностью восстановится в течение нескольких секунд.
Средства безопасности
Безопасность должна быть частью проектирования отказоустойчивой системы для предотвращения несанкционированного доступа и кибератак. Для этого применяются антивирусные инструменты, проверка обновлений, системы контроля и управления доступом — для построения отказоустойчивой системы необходимы все известные средства безопасности.
Наличие катастрофоустойчивого решения
Катастрофоустойчивый тип резервирования осуществляется только для критически важных систем, так как связан с большими финансовыми затратами.
Катастрофоустойчивость позволяет продолжать работу ЦОД после природных катаклизмов, аварий или любых других чрезвычайных ситуаций. Для этого строится географически распределенный дата-центр, объединенный в одну сеть. В случае ЧС данные будут сохранены, а система сохранит работоспособность.
Заключение
Трудно переоценить важность отказоустойчивости для современной компании: все отделы зависят от исправности оборудования, вся необходимая для работы сотрудников информация хранится на серверах, а клиенты просто не смогут воспользоваться услугами, если сайт и сервисы компании не работают.
Если вам нужна консультация по архитектуре собственной отказоустойчивой системы или вы хотите арендовать облачную инфраструктуру, обращайтесь к специалистам провайдера ITGLOBAL.COM.
Отказоустойчивость в облаках ITGLOBAL.COM реализуется с помощью подхода High Availability Private Cloud. Для этого инженеры облачного провайдера используют оборудование и ПО вендоров Cisco и NetApp: коммутаторы, серверы, СХД, инструменты репликации данных и распределения нагрузки.