Отказоустойчивость
Отказоустойчивость — свойство любого оборудования или системы сохранять работоспособность после выхода из строя одного или более компонентов.
Надежность отказоустойчивой системы характеризуется количеством девяток. Например, любая веб-страница гарантирует стабильную работу в 99% случаев, а база данных организации уровня «Сбербанка» — 99,9999%.
Характеристики
Отказоустойчивая система отличается наличием избыточных элементов. Условно они относятся к следующим типам:
1. Программная часть. Наличие на каждом модуле информационной системы идентичного приложения. В обязательном порядке должно стоять управляющее ПО, которое будет отслеживать состояние каждого узла и перенаправлять нагрузку.
Яркий пример — схема кластеризации на основе Veritas Cluster Module. Если один элемент выходит из строя, приложение отключают его из кластера и перераспределяет нагрузку на остальные.
2. Аппаратная часть. Аналогично предыдущему, но здесь резервирование происходит на уровне логических модулей или оборудования. Например, система хранения данных обладает дублирующими элементами: два контроллера, два блока питания, два сетевых адаптера и т. д. При выходе из строя одного из модулей нагрузка распределяется на второй.
Резервирование на уровне оборудования подразумевает наличие нескольких устройств с аналогичными характеристиками. Примером может служить высокоплотный сервер, внутри которого установлены вычислительные ноды.
3. Катастрофоустойчивая часть. Данный тип резервирования предоставляется только для критически важных систем, так как связан с большими финансовыми затратами и наличием квалифицированных специалистов.
Схема избыточности переносится в масштаб ЦОДов. На двух разных площадках строятся аналогичные инфраструктуры. Между ними прокладывается связь, а далее используется специализированное программное обеспечение.
Первым такое ПО создала компания NetAPP, известная своими технологическими новинками в сфере систем хранения данных. Вендор разработал продукт MetroCluster, который полностью резервирует все компоненты ЦОДа на удаленной площадке. Даже если полностью отключится один из ЦОДов, то второй полностью восстановится в течение нескольких секунд.
Для построения отказоустойчивых систем сначала проводят аудит текущей инфраструктуры заказчика, чтобы выявить уязвимые места.
На следующем шаге определяются риски в случае утери одного из элементов инфраструктуры. Рассматриваются разные варианты событий, при которых клиент понесет максимальные потери. На основе полученной информации разрабатывается схема построения отказоустойчивой системы необходимых элементов. В итоге клиенту поставляется комплексное решение, которое будет максимально закрывать риски за приемлемую стоимость.
Отказоустойчивость — важный показатель любой информационной системы. Резервирование может происходить на разных уровнях ИС, начиная с программного обеспечения и заканчивая ЦОДом.