Форм-фактор SXM

[dnf_block term=»SXM» ]это серверный форм-фактор ускорителей NVIDIA, представляющий собой модуль, который устанавливается в специализированный сокет на плате HGX, а не в стандартный слот PCIe. В отличие от PCIe-карт, SXM обеспечивает подвод питания и высокоскоростное межсоединение NVLink через единый разъём, что позволяет организовать прямую связь между несколькими GPU и повысить эффективность масштабирования внутри сервера.[/dnf_block]

Что такое форм-фактор SXM и в чем отличие от PCIe?

SXM форм фактор изначально задумывался как решение «всё в одном»: через один сокет передаются линии питания высокой мощности и каналы межпроцессорного обмена. В отличие от PCIe-карт, SXM-модуль не имеет привычной планки крепления и не вставляется в слот расширения. Он монтируется непосредственно на серверную плату HGX и фиксируется как вычислительный модуль.

Ключевое различие проявляется в скорости взаимодействия GPU с GPU. Интерфейс PCIe 5.0 x16 обеспечивает пропускную способность до 128 ГБ/с. Для задач, где требуется постоянный обмен тензорами между ускорителями, этого может быть недостаточно. В поколении SXM5 используется NVLink с суммарной пропускной способностью до 900 ГБ/с на GPU, что кратно ускоряет синхронизацию при обучении крупных моделей. По оценкам вендоров, версии H100 в исполнении SXM показывают до 30% больший throughput по сравнению с PCIe-вариантами в задачах обучения.

[table id=»873″ ] [tr][cell th=»on»]Характеристика[/cell] [cell th=»on»]PCIe 5.0 (x16)[/cell] [cell th=»on»]NVLink 4.0 (SXM5)[/cell][/tr] [tr][cell]Скорость (BW)[/cell] [cell]до 128 ГБ/с[/cell] [cell]до 900 ГБ/с[/cell][/tr] [tr][cell]Топология[/cell] [cell]Дерево (Hub & Spoke)[/cell] [cell]Полносвязная (Mesh)[/cell][/tr] [tr][cell]Минимальные (Direct P2P)[/cell] [cell]Выше (из-за PCIe контроллера)[/cell] [cell]Минимальные (Direct P2P)[/cell][/tr] [tr][cell]Назначение[/cell] [cell]Универсальные серверы, рендеринг[/cell] [cell]Обучение LLM, тяжелый HPC[/cell][/tr] [tcaption]

Табл. 1 — Сравнение пропускной способности SXM и PCIe

[/tcaption][/table]

История появления и эволюция SXM

Первое поколение SXM появилось вместе с архитектурой Pascal и ускорителем P100. Далее последовали SXM2 и SXM4 для Volta и Ampere. В поколении Hopper реализован SXM5, используемый в H100 и H200, а для архитектуры Blackwell анонсирован SXM6.

Эволюция связана не только с ростом вычислительной мощности, но и с увеличением энергопотребления. Если ранние модули укладывались примерно в 300 Вт, то современные H100 SXM имеют TDP до 700 Вт, а в дальнейшем этот показатель продолжает расти. Одновременно увеличивалась и скорость NVLink, что позволило строить всё более плотные конфигурации.

Преимущества SXM: больше, чем просто скорость

Главное преимущество SXM NVIDIA — высокая пропускная способность между ускорителями через NVLink и NVSwitch. В 8-GPU платах HGX реализуется полносвязная топология All-to-All, где каждый GPU может обмениваться данными с каждым напрямую. Для обучения LLM это означает сокращение времени на синхронизацию градиентов и более эффективное масштабирование.

Второй аспект — питание. Мощность до 700 Вт и выше подаётся напрямую через сокет, без отдельных кабелей питания. Это упрощает компоновку сервера и улучшает воздушный поток внутри шасси.

Третий фактор — плотность. Плата HGX объединяет восемь ускорителей в одном вычислительном узле, что позволяет создавать компактные кластеры с высокой вычислительной концентрацией на стойку.

Обратная сторона медали: почему SXM не в потребительских ПК и какие есть нюансы?

SXM — проприетарная технология NVIDIA. Для её использования требуются специализированные платформы DGX или серверы с платами HGX. Это не универсальный модуль, который можно установить в обычную материнскую плату.

С точки зрения обслуживания SXM менее гибок, чем PCIe. В восьмислотовых конфигурациях модернизация часто связана с заменой целых модулей или плат. При выходе из строя одного GPU операции по замене сложнее, чем в случае отдельной PCIe-карты.

Дополнительный нюанс — охлаждение. При теплопакетах 700 Вт и выше системы требуют продвинутых схем воздушного либо жидкостного охлаждения. В перспективных конфигурациях Blackwell показатели приближаются к 1000 Вт на модуль, что повышает требования к инфраструктуре ЦОД.

В каких системах применяется SXM

Форм-фактор SXM лежит в основе платформ NVIDIA HGX и DGX, применяемых в дата-центрах, исследовательских кластерах и инфраструктуре для обучения крупных ИИ-моделей. Такие решения используются в корпоративных AI-проектах, где критична масштабируемость и скорость межпроцессорного обмена.

Серверы ведущих производителей, например Dell PowerEdge XE9680, строятся на базе HGX с модулями SXM и ориентированы на тяжёлые нагрузки машинного обучения и HPC. Именно в этом сегменте SXM раскрывает свой потенциал: когда важна не только производительность одного ускорителя, но и согласованная работа всей GPU-системы.