СХД (Система хранения данных)
Система хранения данных (СХД) — комплекс аппаратных и программных средств, который предназначен для хранения и оперативной обработки информации, как правило, большого объема. Информация — это файлы, в том числе медиа, структурированные (СУБД) и неструктурированные данные (big data), резервные копии, архивы. В качестве носителей информации используются жесткие диски, в основном SSD (системы All Flash Array), а также гибридные решения, сочетающие SSD- и HDD-накопители в одной СХД.
От пользовательского жесткого диска СХД отличаются сложной архитектурой, возможностью объединять хранилища в сеть передачи данных, наличием отдельного ПО для управления системой хранения, продвинутыми технологиями резервного копирования, сжатия и виртуализации.
Системы хранения данных различаются по нескольким параметрам, от выбора которых зависит применение СХД.
[text_with_btn btn=”Оставить контакты” link=””]Подобрать СХД[/text_with_btn]Уровни хранения
Блочное хранилище
СХД используется как обычный диск, который можно форматировать, устанавливать на него ОС, создавать логические диски. Данные хранятся не файлами, а блоками, что ускоряет операции ввода-вывода. Чаще используется в сетях типа SAN (Storage Attached Network). Подходит для высокопроизводительных вычислений, СУБД, хранения больших объемов данных, в качестве сред разработки (Dev/Test). Из недостатков: а) сложность настройки и обслуживания, которые требуют соответствующей квалификации; б) высокая стоимость.
Файловое хранилище
Данные хранятся в виде файлов, которые размещаются в каталогах. Такая СХД используется для хранения «холодной» информации, которая не требуется для операционных вычислений. На файловых хранилищах, как правило, строятся NAS (Network Attached Storage). Недостатки: при накоплении больших объемов данных усложняется иерархия папок, и скорость работы СХД постепенно снижается. Не подходит для нагрузок, которые требуют высокой скорости отклика.
Объектное хранилище
Тип СХД, который ориентирован на работу с большими неструктурированными данными объемом до петабайтов. Информация хранится не в виде файлов, а в виде «объектов» с уникальными идентификатором и метаданными. Поэтому объектное хранилище похоже по структуре на БД. Используется в аналитике, big data, машинном обучении, для хранения «тяжелых» медиа-файлов и резервных копий, разработки и эксплуатации приложений в облаке, хостинга веб-сайтов. По скорости уступает блочному хранилищу в задачах, связанных с транзакционными нагрузками.
Сетевой доступ
NAS (network-attached storage)
Файловый сервер, который включен в локальную сеть. Доступ к дисковому хранилищу организован через протоколы NFS (в UNIX/Linux-системах) или CIFS (Windows). NAS используется для работы с данными файлового типа, к которым нужен коллективный одновременный доступ — например, к общим документами Word и Excel. NAS работает «поверх» существующей локальной сети, через общие коммутаторы/маршрутизаторы.
SAN (storage area network)
Сеть, которая годится для использования разнотипных хранилищ (диски, оптические приводы, ленточные массивы), но которые воспринимаются операционной системой как единое логическое хранилище данных, или как сетевой логический диск. Протоколы: iSCSI (IP-SAN) и FibreChannel (FC). Для подключения компьютеров используются адаптеры HBA (Host Bus Adapter). В SAN применяется в основном блочный тип хранения данных.
Разделение SAN/NAS уже не так строго, как было в начале 2000-х, поскольку с появлением протокола iSCSI производители стали выпускать гибридные решения.
Отказоустойчивость
Для оценки способности СХД восстанавливаться после сбоев используют два показателя — RPO и RTO.
RPO (recovery point objective)
Период, за который будут потеряны данные, — между моментом аварии и временем, когда создалась последняя резервная копия. Если RPO равен 12 часам, при выходе из строя хранилища возможна потеря данных, накопившихся за последние 12 часов. RPO влияет на выбор технологии аварийного восстановления и зависит от стоимости потери конкретного объема данных.
RTO (recovery time objective)
Время, за которое восстанавливается доступ к СХД. Значение RTO важно для оценки стоимости простоя системы.
Резервное копирование
Частота создания бэкапов выбирается исходя из конкретных задач и требуемого уровня защиты. То же касается и размещения: рабочие данные и их резервную копию можно хранить в географически распределённых СХД (например, в дата-центрах, расположенных в разных странах и даже континентах).
Кроме бэкапов, делают снэпшоты — моментальные «снимки», которые используют для отката на последнюю рабочую версию системы.
Чтобы резервные копии занимали меньше места, применяется дедупликация. При этом в копию переписываются только те данные, которые изменились. Различие между резервными копиями в среднем не превышает 2%, поэтому дедупликация помогает сэкономить дисковое пространство.
Как выбрать СХД
В первую очередь нужно понимать, какие задачи она будет решать. Перед обращением к поставщику (или интегратору) следует определиться с несколькими базовыми параметрами.
Тип данных
Разные типы данных требуют разной скорости доступа, технологий обработки, компрессии и так далее. К примеру, СХД для работы с большими медиа-файлами отличается от той, что подходит для работы с транзакционной СУБД, или от системы, которая будет работать с неструктурированными данными для нейросети.
Объем данных
От этого зависит выбор дисковых накопителей. Иногда можно обойтись SSD потребительского класса — если известно, что емкость СХД даже в худшем случае не будет превышать 300 Гб, а скорость доступа не критична.
Отказоустойчивость
Необходимо представлять, какова стоимость потери данных за определенное время. Это поможет рассчитать RPO и RTO, а также избежать лишних затрат на резервное копирование.
Производительность
Если СХД закупается под новый проект (сервис), о нагрузке которого судить сложно, лучше пообщаться с коллегами, которые уже решали эту задачу. Или обратиться к опытному поставщику, который подобные проекты уже запускал. Идеальный вариант — потестировать СХД.
Вендор
Иногда даже для ресурсоемкого сервиса подойдет бюджетное или среднеуровневое решение (StarWind, Huawei, Fujitsu). Однако у топовых производителей — NetApp, HPE, Dell EMC — линейка продуктов достаточно широкая, и сравнительно недорогие СХД здесь также можно найти. В любом случае, желательно сильно не расширять количество вендоров на одной инфраструктуре.