Отказоустойчивое частное облако с акцентом на экономическую эффективность — история KÉDDO

Известный в России обувной бренд обратился в отдел системной интеграции ITGLOBAL.COM с достаточно нетривиальной задачей. Компании требовалось отказоустойчивое частное облако, разнесенное по двум независимым площадкам. Рассказываем, как нам удалось реализовать проект с использованием High-End решений без лишних затрат со стороны заказчика.

О клиенте

История KÉDDO началась в 1990 году в Великобритании с идеи создания обуви для молодежи, которая хотела чего-то нового. Спустя годы стартап превратился в культовый молодежный бренд. Сегодня KÉDDO входит в ТОП-20 мировых обувных брендов, а продукция компании представлена более чем в 80 странах мира.

На момент обращения в ITGLOBAL.COM заказчик использовал стоечные серверы HP, объединенные в кластер Microsoft Hyper-V. Однако такой подход не отвечал запросам времени по параметрам отказоустойчивости и производительности, поэтому компания решила построить отказоустойчивое частное облако.

Экспертиза как источник экономии

Запрос клиента требовал глубокой проработки и высокой компетентности специалистов. Его важность повышалась из-за особенностей бизнеса компании: как и любая другая область, связанная с сезонностью, обувная индустрия не терпит даже минимальных простоев. Однако стандартное решение с приобретением системы резервного копирования (далее — СРК) клиенту не подходило: стоимость такого ПО, например, Veeam или Veritas, могла составить десятки тысяч долларов.

Специалисты ITGLOBAL.COM предложили надежный и экономически эффективный способ реализации проекта – организацию двух ИТ-площадок:

основной — с высокой производительностью и соблюдением жестких требований к отказоустойчивости систем;
резервной (DR) — для запуска бизнес-критичных приложений.

Реализация High Availability Private Cloud

Для построения отказоустойчивого частного облака использовались:

коммутаторы Cisco Nexus 3524 (2 шт.);
серверы Cisco UCS C220;
гибридные системы хранения данных (далее — СХД) NetApp FAS2750 последнего поколения (2 шт.).

В структуре предложенного решения также можно условно выделить коммутацию и хранение данных с использованием инструментов SnapMirror и SnapVault.

Коммутация

Задачу сетевого взаимодействия решают два коммутатора Cisco Nexus. Функционал Virtual Port Channels (далее — vPC) позволяет соединить два устройства в один стек. Благодаря vPC на коммутаторах этого типа можно строить отказоустойчивые, но простые в архитектуре и обслуживании сети доступа. Каждый Nexus имеет свой независимый control и management plane, при этом заказчик может агрегировать каналы, распределенные между двумя коммутаторами.

Хранение данных

Решение для хранения данных на основной площадке построено на основе СХД NetApp FAS2750. СХД представлена в виде кластерной конфигурации из двух контроллеров, которые связаны друг с другом через кластерный интерконнект, и имеет выделенные порты 10GbE (по 2 порта на каждом контроллере). Возможно масштабирование системы до 8 контроллеров. Каждый контроллер СХД комплектуется NVMe M.2 картой объемом 512Gb, которая может быть использована в качестве L2 FlashCache — кэша на чтение на уровне контроллера, который позволяет снизить показатели latency для операций случайного чтения.

СХД работает под управлением ОС NetApp Data ONTAP 9.2 и представляет собой универсальное хранилище, которое может обеспечивать как блочный, так и файловый доступ к информации. Выбор системы хранения данных NetApp был обусловлен не только производительностью и экономической целесообразностью, но и имеющимся программным функционалом. ПО ONTAP 9.2 Premium включает в себя такие инструменты как SnapMirror и SnapVault.

SnapVault

Выбранная в данном проекте редакция ONTAP Premium имеет встроенную оснастку SnapVault, которая дает возможность создавать быстрые бэкапы на уровне виртуальных машин на базе мгновенных снимков – снапшотов. А связки SnapVault + Virtual Storage Console for VMware vSphere, SnapManager for MS SQL и SnapManager for Exchange позволяют организовывать быстрое восстановление данных на заданный момент времени без влияния на производительность продуктива и предоставляют возможность гранулярного восстановления на уровне отдельного файла, почтового ящика и письма.

SnapMirror

Еще одним компонентом редакции ONTAP Premium является SnapMirror – средство асинхронной репликации данных между двумя физическими системами хранения. Репликация идет по IP-сети, и в этом заключается ее существенное отличие от других решений репликации и других вендоров, которые часто предпочитают FC. SnapMirror for SVM позволяет отреплицировать на резервную площадку как все данные на СХД и настройки, так и только их часть.

В процессе реализации проекта на этапе развертывания СРК средствами СХД было принято решение об использовании режима Identity Discard для SAN или NAS. В данном режиме под VM выдается NFS-шара в качестве Datastore, а для базы данных и логов – отдельные iSCSI LUN’ы.

Workflow Automation

Использование инструмента Workflow Automation позволяет создавать наборы или связки задач для автоматизации процессов управления ONTAP, например:

настраивать создание новых разрешений для файловых шар или iGroup;
добавлять отреплицированные вольюмы и новые хосты-инициаторы с резервной площадки;
поднимать новые LIF интерфейсы и многое другое (создать Broadcast Domain, создать Failover Groups, Firewall Policies, Routes, DNS, и т.д.).

Workflow Automation позволяет добиться высокого уровня автоматизации процессов — такого, чтобы все необходимые задачи выполнялись сразу после разрыва репликации буквально по одному клику мыши.

Нужна консультация по частному облаку?

Как тестировали решение

В рамках нагрузочного тестирования специалистами ITGLOBAL.COM был смоделирован выход из строя основной СХД. В результате все критические сервисы успешно запустились на резервной площадке (удаленном сайте). Специалистам заказчика остается задача перенастройки IP адресов и других настроек, которые не были реплицированы согласно режиму Identity Discard, по которым будут доступны данные на вторичной СХД после переключения.

Этот режим работы позволяет осуществить проверку резервной копии на возможность к ней восстановиться. Также он интересен заказчикам, которым необходима возможность реплицировать LUN’ы выполнять чтение данных на резервной площадке.

Результаты

Поскольку надежность предлагаемого на рынке оборудования энтерпрайз-уровня очень высока (99,999% и стремится к 99,9999%), гораздо больший акцент хочется сделать на программной части реализованного решения. Именно высокий уровень интеграции оборудования с прикладным ПО без использования отдельной СРК обеспечил выполнение всех задач клиента в рамках построения высокопроизводительного отказоустойчивого приватного облака.

Выбранный к созданию High Availability Private Cloud подход и использование решений NetApp и CISCO в рамках архитектуры FlexPod позволили не только обеспечить уровень отказоустойчивости и производительности ИТ-инфраструктуры, необходимый динамично развивающемуся бизнесу, но и достичь значительной экономии за счет реализации Disaster Recovery средствами СХД и отказа от отдельной СРК. Все работы по созданию комплекса и миграции информационных систем со старого оборудования заняли всего 3 месяца без единого простоя.

ITGLOBAL.COM оказывает мультивендорную поддержку. Если вам требуется обслуживание оборудования зарубежных вендоров — заполните форму