Cервисы
Managed IT
Решения
Security
Импортозамещение
О компании

Отказоустойчивость

Отказоустойчивость — свойство любого оборудования или системы сохранять работоспособность после выхода из строя одного или более компонентов.

Надежность отказоустойчивой системы характеризуется количеством девяток. Например, любая веб-страница гарантирует стабильную работу в 99% случаев, а база данных организации уровня «Сбербанка» — 99,9999%.

Характеристики

Отказоустойчивая система отличается наличием избыточных элементов. Условно они относятся к следующим типам:

1. Программная часть. Наличие на каждом модуле информационной системы идентичного приложения. В обязательном порядке должно стоять управляющее ПО, которое будет отслеживать состояние каждого узла и перенаправлять нагрузку.

Яркий пример — схема кластеризации на основе Veritas Cluster Module. Если один элемент выходит из строя, приложение отключают его из кластера и перераспределяет нагрузку на остальные.

2. Аппаратная часть. Аналогично предыдущему, но здесь резервирование происходит на уровне логических модулей или оборудования. Например, система хранения данных обладает дублирующими элементами: два контроллера, два блока питания, два сетевых адаптера и т. д. При выходе из строя одного из модулей нагрузка распределяется на второй.

Резервирование на уровне оборудования подразумевает наличие нескольких устройств с аналогичными характеристиками. Примером может служить высокоплотный сервер, внутри которого установлены вычислительные ноды.

3. Катастрофоустойчивая часть. Данный тип резервирования предоставляется только для критически важных систем, так как связан с большими финансовыми затратами и наличием квалифицированных специалистов.

Схема избыточности переносится в масштаб ЦОДов. На двух разных площадках строятся аналогичные инфраструктуры. Между ними прокладывается связь, а далее используется специализированное программное обеспечение.

Первым такое ПО создала компания NetAPP, известная своими технологическими новинками в сфере систем хранения данных. Вендор разработал продукт MetroCluster, который полностью резервирует все компоненты ЦОДа на удаленной площадке. Даже если полностью отключится один из ЦОДов, то второй полностью восстановится в течение нескольких секунд.

Для построения отказоустойчивых систем сначала проводят аудит текущей инфраструктуры заказчика, чтобы выявить уязвимые места.

На следующем шаге определяются риски в случае утери одного из элементов инфраструктуры. Рассматриваются разные варианты событий, при которых клиент понесет максимальные потери. На основе полученной информации разрабатывается схема построения отказоустойчивой системы необходимых элементов. В итоге клиенту поставляется комплексное решение, которое будет максимально закрывать риски за приемлемую стоимость.

Отказоустойчивость — важный показатель любой информационной системы. Резервирование может происходить на разных уровнях ИС, начиная с программного обеспечения и заканчивая ЦОДом.