Cервисы
Managed IT
Решения
Security
Импортозамещение
О компании

Как устроен мониторинг ИТ-инфраструктуры. Практика ITGLOBAL.COM

Чем бы не занималась компания, в современных реалиях ИТ-инфраструктура — важная часть бизнеса. Ведь на ней завязано много критических для компании процессов. Благодаря мониторингу можно узнавать о приближающихся инцидентах до того, как они возникли, оперативно их устранять и не терять деньги на незапланированных простоях. Рассказываем, как организован мониторинг клиентской ИТ-инфраструктуры в ITGLOBAL.COM.

Что такое мониторинг

К мониторингу ITGLOBAL.COM подключены ИТ-инфрастурктура и сервисы более 100 компаний. Мониторинг организован так, чтобы можно было контролировать все до единого процессы в информационных системах. Мониторить можно бесконечное количество параметров, но ITGLOBAL.COM фокусируется на ключевых характеристиках, критичных для конкретного бизнеса. Все сделано не ради отчетов, а ради эффективности и соблюдения SLA.

Мониторинг ITGLOBAL.COM

Компания накопила большой опыт, и для всех ключевых сервисов существуют базовые наборы правил — «модели здоровья». Наши специалисты настраивают мониторинг так, что система посылает только нужные уведомления и только тогда, когда надо. То есть у нас полностью исключена ситуация, при которой генерируются тысячи бессмысленных уведомлений.

На каком программном решении организован мониторинг

Используется надежная и проверенная система с открытым исходным кодом Icinga, форк известного продукта Nagios. Служа поддержки ITGLOBAL.COM выбрала Icinga по многим причинам. Вот основные:

Как устроены «модели здоровья»

Устройство каждой конкретной модели зависит от типа сервиса, который контролируется. Существуют базовые метрики: состояние CPU, RAM, свободного места на дисках, аптайм и сетевая доступность (пинг с разных точек).

Дополнительные метрики зависят от роли сервера. Например, для статичного сайта добавляется уведомление об экспирации доменного имени и сертификатов безопасности. Для веб-сервера — количество порождаемых дочерних процессов. Кроме того, клиент, как правило, сообщает метрики, которые важны именно ему. Таким образом, с каждым новым клиентом, модели здоровья компании постоянно улучшаются.

Какие проблемы способен выявить мониторинг

Он дает около 80% необходимой информации для понимания источника проблемы. При покрытии всех процессов и настроенных моделей здоровья, мониторинг дает полный контроль и возможность увидеть всю «картинку» целиком и далее уже планировать изменения. Вот несколько примеров, что именно учитывает мониторинг ITGLOBAL.COM.

Какие параметры мониторинга важны

Базовые метрики сразу выявляют 80% всех проблем. Таким образом можно заранее предотвратить возможные убытки. Кроме того, ITGLOBAL.COM делает фокус на метрики, которые важны для конкретного бизнеса. К примеру, это может быть RPS, количество обрабатываемых запросов в секунду. Метрика, критичная для ритейла и многих других отраслей — количество транзакций в единицу времени и стабильность потока данных. Ведь каждая транзакция — это прибыль для клиента.

Что происходит после того, как система обнаруживает проблему

Если модель здоровья сгенерировала предупреждение, в системе поддержки автоматически заводится инцидент-тикет. Служба поддержки ITGLOBAL.COM работает круглосуточно и в течение 15 минут реагирует на инцидент.

В первую очередь выясняется степень критичности инцидента и его влияние на работу ИТ-сервиса. В службе поддержки разработаны инструкции, как действовать при самых распространенных проблемах. Если проблема существенная, то к процессу подключаются специалисты второй линии.

Можно ли обойтись без мониторинга

Да, но это будет означать полное отсутствие контроля. Вы будете не предотвращать проблемы, а узнавать о них от клиентов. На вашей репутации и доходах это скажется самым негативным образом. Плюс важно учитывать, что на решение проблем вы будете тратить в 5-10 раз больше времени, чем команда профессиональных специалистов, «вооруженная» мониторингом.

Кому и когда следует обратиться за услугой мониторинга

Мониторинг как услуга освобождает вас от множества трудоемких задач:

При подключении сервиса с клиентом согласовываются модели здоровья и условия получения уведомлений. Например, ИТ-службы могут получать их в круглосуточном режиме, а бизнес-подразделения можно информировать только о критичных случаях. Это сэкономит время и человеческие ресурсы.