Как организовать инженерную инфраструктуру ЦОД: возможные проблемы и их решение
При строительстве ЦОДов и серверных в России компании зачастую сталкиваются с множеством проблем. Однако их можно избежать и минимизировать, если профессионально подойти к каждому этапу проекта и сделать это всё своевременно. Какие же это проблемы и как их не допустить?
Дефицит знаний и опыта
Сюда входит низкий уровень проектной культуры:
- несогласованность действий подрядчиков,
- безответственность,
- искаженная система приоритетов.
И сложности, связанные с документацией:
- заметное моральное устаревание отечественных отраслевых стандартов,
- отсутствие актуальных административно-правовых регламентов,
- небрежное отношение к тендерной, проектной и архивной документации.
Всё это на глобальном уровне является основой для большинства проблем. Заказчик может заняться всем этим самостоятельно, но, как правило, у них отсутствуют такие знания, а чтобы их получить, потребуется довольное большое количество времени и сил.
На этапах разработки и описания концепции проектов совершается наибольшее количество ошибок, которые впоследствии бывает невозможно исправить. Этот этап имеет ключевое значение как для реализации проекта, так и для его эксплуатации.
Что можно сделать, чтобы избежать последствий этой проблемы?
Как у нас чаще всего начинается проект? Определяются сроки и бюджет. Но начинать нужно не с этого, а с формулировки бизнес задачи. Важно, чтобы были приняты во внимание требования и ожидания всех заинтересованных подразделений.
К этому относятся графики поставок оборудования, ограничения по безопасности и предоставляемым мощностям.
Для выполнения этой работы формируется проектная команда, куда помимо топ-менеджеров заказчика, должны войти финансовый директор и представители бизнес-единиц, заинтересованных в использовании ресурсов будущего ЦОД. А также специалисты службы безопасности, управления недвижимостью, ИТ-департамента, отдела эксплуатации инженерных систем и главный энергетик.
Но в действительности кого-то из них забывают учесть, либо недооценивают степень влияния на проект. Проектная команда должна четко понимать, что именно получит бизнес к моменту запуска ЦОД.
Это поможет правильно расставить приоритеты и обоснованно подойти как к выбору площадки, так и к подбору инженерно-строительных решений. Этот пункт кому-то может показаться формальностью, но именно наличие правильно оформленной внутренней документации позволит избежать массы проблем.
Необоснованные решения
После определения целей и проведения предпроектного обследования переходим к железу. Здесь может возникнуть следующая проблема — применение в проекте технически необоснованных инженерных решений:
- неоправданная избыточность,
- либо наоборот недостаток систем, помещений и мощностей вводимого в эксплуатацию дата-центра.
Система электроснабжения
Невозможно представить себе какую-либо инженерную систему ЦОДа, которая не была бы так или иначе связана с системой электроснабжения. Это фундамент для всех энергозависимых инженерных систем. Поэтому ошибки, допущенные при проектировании и реализации данной системы, могут привести к низкой доступности или даже полной неработоспособности дата-центра в целом.
Происходит очень много типовых и повторяющихся ошибок систем электроснабжения абсолютно на всех стадиях проекта. Например, если заказчик в кратчайший срок просит возвести модульный ЦОД с дорогостоящим оборудование, но совсем не заботится о внешнем электроснабжении или говорит, что электроснабжение будет только через год после строительства ЦОД, то смысл быстровозводимого ЦОДа теряется. Или наоборот, в маленькую серверную ставят и модульный ИБП и ДГУ, а ИБП вообще с одним модулем. А иногда бывает такое, что ИБП вообще не воспринимает нагрузку и не включается в работу. А это прямые необоснованные финансовые затраты. Для ДГУ, которая нагружена менее 30-35% недопустима долговременная эксплуатация.
Другой пример. Если высокорезервированная система холодоснабжения будет подключена к менее резервированной системе электроснабжения, то она не сможет в полной мере раскрыть свой потенциал. Допустим, проектом системы холодоснабжения ЦОДа предусмотрено два взаимно резервированных чиллера, но в проекте электроснабжения эти чиллеры подключаются к одной распределительной шине.
И совсем простое — удалённость источника электроснабжения от нагрузки. Длиннее кабельная линия – больше расходы.
Главная ошибка этапа разработки концепции – недостаточный уровень обмена информацией между архитектором системы электроснабжения и архитекторами других инженерных систем.
Система кондиционирования
Усложнение и повышение стоимости возникает, когда на каждом этапе пересчета от первоначальной нагрузки к конечному элементу в систему закладывается свой запас.
Например, на каждом этапе расчёта системы кондиционирования делаем запас – для теплопритоков, далее на внутреннем блоке, потом на внешнем блоке и в итоге вместо 10% запаса оказывается 30-40%. Избыточный запас оказывает негативное влияние на систему – как за счет увеличения первоначальных инвестиций, так и за счет увеличения стоимости смежных систем. В данном случае системы электроснабжения и конструктива для размещения холодильных машин.
Другая сторона – недостаток системы. Часто оборудование выбирают в точном соответствии с нагрузкой. Это, конечно, снижает стоимость системы в целом и позволяет вырваться в лидеры в тендере, но негативно сказывается на работе системы. Поскольку подбор практически любого оборудования имеет погрешность 5–10%, и эта погрешность может оказаться как в большую, так и в меньшую сторону. Тут необходима золотая середина.
Вентиляция
Бывает и такое, когда заказчик или подрядчик не понимает технологии и алгоритмы работы оборудования. Оборудование из одной сферы применения устанавливают в другую сферу. Например, дискретно-регулируемый воздухоохладитель из пищевой холодильной промышленности устанавливают в систему вентиляции с прецизионной подачей приточного воздуха. Естественно, дискретный алгоритм не позволяет прецизионно поддерживать ни температуру, ни влажность воздуха. Поэтому приходится модернизировать систему автоматизации, тем самым увеличивая стоимость автоматики и срок наладки системы.
Пожаротушение
Эта система требует отдельного внимания, т.к связана с огромной ответственностью и последствиями, которые могут быть непоправимыми.
В марте этого года опубликован отчет о пожаре годичной давности в дата-центре OVHcloud в Страсбурге (Франция). Отсутствие автоматической системы пожаротушения, деревянные потолки, вентиляция, которая способствовала распространению огня, возникновение электрических дуг протяженностью более метра в ходе пожара от электрооборудования. На полное отключение электропитания ушло три часа, поскольку единой точки изоляции от энергосети у ЦОД не было. За 6 часов здание было разрушено полностью. На одной территории находилось 4 ЦОДа, все они были обесточены, что привело к отключению 3,6 млн веб-сайтов. Предполагаемой причиной возгорания считается неисправный ИБП.
При построении этих систем, стремление к экономии – вещь в целом положительная. Но оценка работ потенциальных исполнителей исходя только из цены, приводит к достаточно распространенной ошибке – выбору «самых дешевых» подрядчиков. Если сделать выбор в их пользу без выяснения причин низкой стоимости, в результате можно получить работу непозволительно низкого качества.
Выбор помещения
Разобравшись с целями бизнеса, определив задачи и примерный объем оборудования, возникает вопрос: «Где это всё размещать?».
Тут есть 3 варианта реализации ЦОД:
- строительство нового здания,
- строительство ЦОД внутри существующего помещения или здания,
- использовать сторонний коммерческий ЦОД.
Строительство нового здания
Часто бывает так, что сначала покупается здание или помещение, а потом уже начинают думать, что туда устанавливать. Это в корне неправильный подход.
При компоновке оборудования на плане ЦОДа проектировщики часто сталкиваются с нехваткой свободного места для его размещения согласно рекомендациям производителя. В таких условиях приходится пренебрегать рекомендациями и делать все на свое усмотрение.
К сожалению, такой подход работает не всегда удачно, а порой приводит к плачевным результатам: перегреву электрооборудования (вследствие заужения вентиляционных зазоров), или ограничению возможности техобслуживания (вследствие заужения зон обслуживания).
Многие организации основывают свои требования к пространству только исходя из ИТ-оборудования. Однако для установки механического и электрического оборудования также требуется значительное пространство.
Поэтому крайне важно определить критерии проектирования перед разработкой плана помещения. Без этого невозможно составить концептуальное представление об общей площади, необходимой для удовлетворения потребностей в целом.
Что важно учесть:
- Географическое расположение ЦОД.
Критериев размещения огромное количество. Например в черте города или за его пределами, необходим учет сейсмоактивности, природных явлений (в особенности учет зоны подтопления).
- Удалённость от внешней электросети.
Размещение ЦОД в центре мегаполиса может быть осложнено невозможностью установки гарантированного электропитания с помощью ДГУ.
Строительство ЦОД внутри существующего помещения или здания
Имеется большое количество критериев, которые необходимо учесть.
Помещение должно пройти существенную подготовку:
- Если в помещении имеются окна, то их необходимо заложить, чтобы уменьшить теплопритоки из окружающей среды для увеличения безопасности.
- В помещении не должно быть транзитных коммуникаций, типа трубопроводов и воздуховодов.
- Над помещением не должно быть сантехнических узлов.
- Пол, стены, потолок должны иметь покрытие, которое не выделяет пыль и имеет негорючую основу. Пыль очень сильно влияет на работоспособность всего оборудования и его перегрев.
Это всё необходимо для уменьшения последствий от прорывов или других аварий, связанных с этими коммуникациями. Поэтому об этом не нужно забыть и это тоже требует вложений.
Обслуживание и эксплуатация ЦОД
Гарантия и сервисные организации
Когда оборудование установлено, монтаж и пуско-наладка проведена и всё работает, заказчики начинают думать, что наконец-то можно забыть про это на ближайшие пару лет. Есть же гарантия на целых два года. И часто под гарантией понимают решение любых проблем за деньги исполнителей.
Но это не так. Никакая гарантия не отменяет плановое техническое обслуживание железа. Когда что-то произойдёт, вы обратитесь к исполнителю или в сервисный центр, и вам зададут два вопроса: когда купили (установили) и как эксплуатировали (условия). И вот тут заказчик может сильно удивиться, когда получит отказ в гарантийном случае.
Поэтому и заказчик и исполнитель должны ещё на начальных этапах задаваться вопросом об эксплуатации и обслуживании, задавать вопросы друг другу.
Факты обслуживания должны всегда фиксироваться актами выполненных работ, и тогда при наступлении гарантийного случая вам вряд ли откажут. Также нужно не забывать, что у многих производителей гарантийный ремонт имеет низкий приоритет. Например, если вам обещано прибытие инженера в течение 10 дней на объект, будьте уверены, что скорее всего он приедет не раньше, чем на 9-ый день.
Или есть такая категория сервиса как «всё включено». При любой неисправности приезжает исполнитель и решает задачу своими силами, без дополнительной оплаты ЗИП и работ. Бывали случаи, когда организации пытались заключить такие сервисные контракты, когда у них оборудование уже вышло из строя. Некоторые сервисные организации или производители идут на такой шаг, чтобы подружиться с заделом на будущее. Но такое бывает крайне редко.
Существует хитрость: когда вы начинаете искать сервисного подрядчика, пригласите их инженера на предаудит или по-другому «тест визит», и вы практически бесплатно получите бесплатную диагностику. Потому что чем больше информации об объекте, тем более релевантные цены и условия будут от сервисной организации. Тут лучше не утаивать какие-то моменты от сервисной организации, а говорить как есть, это будет полезно для всех.
Есть категория сервиса как минимальная или разношёрстная для разных систем: где-то всё включено, где-то только работы или даже консультация по телефону. Но это всё лучше делать у одного широкопрофильного подрядчика, который умеет обслуживать всё. Тут получается сложный сервисный контракт с разными уровнями SLA для разных систем. Такой подход позволит существенно экономить ресурсы.
Есть два подхода:
- Заплатить огромные деньги за сервис всё включено.
- Заплатить минимум средств и по мере случая докупать ЗИП.
Общие проверки
Иногда случается так, что при вводе в эксплуатацию нового объекта, заказчик или исполнитель может не отследить некоторые мелочи. Например был случай, когда через год после ввода в эксплуатацию специалисты приехали на объект для проведения планового обслуживания, и оказалось, что управление ДГУ переведено на ручной режим, а выход от ДГУ выключен. Кто и когда это сделал – неизвестно, а тот, кто за это отвечает не отследил. Тут последствия вполне очевидны — при аварии продолжение полета будет невозможно. Поэтому проверки необходимы, чтобы предотвратить опасные ситуации.
Утилизация
Многие очень неохотно и медленно подступают к этой процедуре. Построили ЦОД, завезли серверы СХД и прочее оборудование, а коробки от этого оставили в самом ЦОДе. Бывает, что после замены в кондиционерах воздушных фильтров, они тоже не утилизируются своевременно, а отправляются в складское помещение и там забываются на многие месяцы, а то и годы. Если вы не хотите этим заниматься, нужно доверить это сервисной организации, и не просто на словах, а как один из пунктов SLA. Один из наиболее чувствительных моментов — аккумуляторные батареи. Их количество и вес могут вызвать определенную проблему. Утилизация АКБ должна быть своевременной. Но тут есть и определенный плюс: за утилизацию АКБ платят деньги. И это дополнительная возможность обсуждения стоимости обслуживания. Оставить АКБ на сервисной организации и попросить дополнительный дисконт. Почему бы и нет?
ЗИП
Обычно многие экономят на этой составляющей. Покупают неоригинальные запчасти и только по мере необходимости. В реалиях весны 2022 года наиболее остро стоит вопрос регулярно необходимых запчастей (ЗИП) для проведения регламентного технического обслуживания и оперативного восстановления после отказов. Поэтому первостепенный совет – пополнить запасы штатного ЗИП насколько это возможно. Провести анализ вашей инфраструктуры, вспомнить слабые места, провести инвентаризацию ЗИП и даже вплоть до организации собственной ремонтной мастерской вышедшего из строя ЗИП.
Экономический кризис
Бывает так, что у заказчика нет свободных денежных ресурсов, нет площади или есть какие-то юридические ограничения связанные с эксплуатацией ПО, а инфраструктура очень нужна.
На помощь нам приходят онлайн-сервисы. Они предлагают простой, гибкий и недорогой доступ к любому объему и ассортименту вычислительных мощностей и приложений, размещенных за пределами корпоративной сети. Такую услугу предоставляет ITGLOBAL.COM. Для создания инженерной инфраструктуры компания использует комплексный подход: проектирование, внедрение и последующая техническая поддержка. Решения ITGLOBAL.COM по инженерной инфраструктуре в первую очередь направлены на организацию непрерывности бизнеса. Узнать подробнее об услуге или оставить заявку на консультацию можно здесь.