GPU / ИИ
Облачные сервисы
Managed IT
Интеграция
Security
Импортозамещение
Партнерам
О компании

400G OSFP для ИИ-кластеров: почему форм-фактор — это ещё не всё

Когда речь заходит о ИИ-кластере уровня NVIDIA SuperPOD на базе ускорителей HGX H200, первое, о чём думают, — производительность GPU, объём памяти HBM3e, пропускная способность NVLink. Оптические трансиверы в этом контексте воспринимаются как сугубо утилитарный компонент. На практике это работает ровно до того момента, когда оборудование приезжает в дата-центр и выясняется, что трансивер физически не помещается в адаптер.

Проблема не в том, что кто-то заказал «не тот» форм-фактор. OSFP — он и есть OSFP. Проблема в том, что внутри единого стандарта существует несколько конструктивных вариантов, и они не взаимозаменяемы. Эта деталь превращается в критическую уязвимость именно тогда, когда цена ошибки максимальна — на кластере за десятки миллионов.

Важно: адаптеры NVIDIA ConnectX-7 поддерживают исключительно модули типа RHS (Riding Heat Sink / Flat Top). Попытка установить Finned Top в слот ConnectX-7 физически невозможна — это закреплено в конструкции разъёма согласно спецификации OSFP MSA.

Что такое HGX H200 и зачем ему восемь сетевых картс

HGX H200 — это серверный модуль, в котором восемь GPU H200 с памятью HBM3e 141 ГБ каждый объединены через четыре коммутатора NVSwitch. Каждый чип SXM5 подключён 18 линиями NVLink, что даёт суммарную пропускную способность внутри узла порядка 900 ГБ/с. Но как только речь заходит о масштабировании за пределы одного сервера, в игру вступает внешняя сетевая инфраструктура.

На каждый узел HGX H200 приходится восемь однопортовых адаптеров NVIDIA ConnectX-7, каждый с портом 400 Гбит/с в форм-факторе OSFP. Именно эти карты образуют fabric-сеть между узлами — через них передаются градиенты при распределённом обучении, синхронизируются параметры модели, обмениваются активации. Для кластера из 32 узлов это уже 256 портов на уровне leaf-коммутаторов, а при полноценном SuperPOD их счёт идёт на тысячи.

InfiniBand или Ethernet: выбор протокола определяет архитектуру

Физически ConnectX-7 поддерживает оба протокола — InfiniBand NDR 400G и Ethernet 400GbE. Но это не просто переключение режима; это разные подходы к построению сети с разными требованиями к инфраструктуре и разными компромиссами.

InfiniBand NDR даёт задержку менее одной микросекунды, нативную поддержку RDMA и адаптивную маршрутизацию SHARP. Для задач распределённого обучения LLM, где каждые несколько миллисекунд накапливаемой задержки транслируются в часы потерянного времени, это ощутимо. Обратная сторона — коммутаторы серии Quantum-2 стоят значительно дороже и требуют специализированных кабельных решений.

Ethernet 400GbE с RoCEv2 привлекателен тем, что позволяет использовать стандартное коммутационное оборудование — Spectrum-4 и его аналоги. При грамотной настройке PFC и ECN производительность в задачах типа all-reduce оказывается сопоставимой с InfiniBand. Плюс — более широкий выбор поставщиков и более предсказуемое операционное обслуживание.

Для целей выбора оптических модулей оба сценария равнозначны: физический интерфейс ConnectX-7 одинаков вне зависимости от протокола. Разница — в прошивке и конфигурации коммутатора, а не в трансивере.

[text_with_btn btn=»Консультация эксперта» link=»» btn_size=»small»]Оставить заявку на аудит сетевой архитектуры[/text_with_btn]

Два модуля, один форм-фактор, нулевая совместимость

Стандарт OSFP (Octal Small Form-factor Pluggable) появился как ответ на растущие тепловые и скоростные требования — он поддерживает скорости от 400G до 1,6 Тбит/с и рассчитан на модули мощностью до 20 Вт. Стандарт описывает механический корпус, электрический интерфейс, протокол управления. Но тепловое исполнение корпуса он оставляет на усмотрение производителя — и именно здесь возникает ловушка.

Физические различия OSFP RHS (Flat Top) и Finned Top: высота корпуса, тип теплоотвода и совместимость с оборудованием. (источник: itpod.com)

OSFP RHS / Flat Top — для серверных адаптеров

Модуль типа RHS (Riding Heat Sink) выглядит лаконично: плоская металлическая поверхность без каких-либо выступов. Высота корпуса не превышает 10,5 мм. Охлаждение осуществляется не самим трансивером, а внешним теплосъёмником, который фиксируется поверх модуля прямо в кейдже адаптера — он буквально «едет верхом» на плоской поверхности и отводит тепло к системе охлаждения сервера.

Именно такая конструкция критична для ConnectX-7: карта рассчитана на размещение нескольких портов вплотную, поэтому каждый лишний миллиметр высоты — это проблема. При мощности модуля до 14 Вт плоская конструкция вполне справляется с отводом тепла через внешний теплосъёмник без увеличения габаритов.

OSFP Finned Top / IHS — для коммутаторов

Модуль типа Finned Top (или IHS — Integrated Heat Sink) имеет встроенный алюминиевый радиатор: он выступает над корпусом на 4–6 мм, поднимая общую высоту до 13–16 мм для стандартных модулей. Радиатор — неотъемлемая часть конструкции, его нельзя снять.

Такая конструкция уместна в коммутаторах серии Spectrum: между соседними портами достаточно пространства для модулей повышенной высоты, а мощность магистральных линков (16–20 Вт) требует более эффективного интегрированного теплоотвода. В коммутаторе не нужны внешние теплосъёмники — упрощается конструкция шасси и обслуживание.

SR4, DR4, FR4: куда что ставить

Выбор теплового типа — лишь первый вопрос. Второй, не менее важный, — дальность передачи. Оптический бюджет трансивера определяет тип волокна, количество жил и, соответственно, всю кабельную инфраструктуру дата-центра. Ошибка здесь обходится не менее дорого: OM4 до половины длины зала — одна история, SMF на километры между зданиями — совсем другая.

Выбор типа 400G OSFP-трансивера по дальности. SR4 — внутри стойки и между соседними стойками; DR4 — между рядами стоек; FR4 — между машзалами и зданиями.

400G-SR4 — многомодовое волокно OM4/OM5, длина волны 850 нм, дальность до 100 метров. Четыре параллельных канала по 100G-PAM4, 8 жил, MPO-12 коннектор. Рабочая лошадка для горизонтальных соединений внутри стойки и между соседними стойками одного ряда. Многомодовый кабель дешевле, OM4 уже проложен в большинстве современных ЦОД — в типичном SuperPOD именно SR4 составляет основную массу трансиверов.

400G-DR4 — одномодовое волокно, 1310 нм, дальность до 500 метров. Те же 4 канала по 100G-PAM4, те же 8 жил MPO-12. Нужен там, где расстояние превышает возможности SR4: связи между рядами стоек на большом машинном зале, соединения между соседними залами одного здания.

400G-FR4 — одномодовое волокно, до 2 км. Принципиальное отличие от DR4 — CWDM4: волновое мультиплексирование четырёх длин волн (1271, 1291, 1311, 1331 нм) по одной паре волокон, всего 2 жилы. Дуплексный LC вместо MPO-12 — это критично при проектировании кабельной трассы. Применяется для соединений между отдельными корпусами ЦОД или между этажами.

Практическое правило: при проектировании сети SuperPOD сначала нанесите физическую топологию на план ЦОД с реальными расстояниями. Это однозначно определяет тип трансивера — SR4, DR4 или FR4. OM4 и SMF несовместимы, и это нужно закладывать в проект с самого начала.

Рынок растёт, опыта пока недостаточно

Строительство сетей на скоростях 400G и выше — явление относительно молодое. Ещё несколько лет назад большинство ЦОД работали на 10G и 25G, а 100G воспринималось как серьёзное достижение. Переход к 400G — это не просто «в четыре раза быстрее»: другая модуляция (PAM4 вместо NRZ), другие требования к затуханию, более строгие допуски на соединители, новые форм-факторы с нетривиальными механическими ограничениями.

Глобальный рынок оптических трансиверов для ЦОД и ИИ-инфраструктуры. В 2024 году поставки модулей 400G и выше выросли на 250% год к году. Источники: Dataintelo, IEEE 2025.

[text_with_btn btn=»Оставить заявку» link=»» btn_size=»small»]Проектирование ИИ-кластера под ключ[/text_with_btn]

Рынок реагирует на этот спрос стремительным ростом объёмов поставок — но инженерная экспертиза за ним объективно не успевает. По данным отраслевых аналитиков, только в 2024 году поставки модулей 400G и выше выросли на 250% год к году. При этом большинство команд, проектирующих ИИ-кластеры сегодня, работают с этими технологиями впервые или второй раз.

На практике это означает, что ошибки при выборе оптики — не редкость и не признак некомпетентности. Документация NVIDIA и Mellanox объёмна, требования к совместимости разбросаны по нескольким техническим руководствам, а разница между RHS и Finned Top занимает в них буквально один абзац — хотя последствия путаницы выражаются в неделях задержки и значительных дополнительных затратах на дорогостоящем проекте.

Вывод

Команда интегратора ITGLOBAL.COM накопила практический опыт построения ИИ-кластеров как на базе InfiniBand, так и на базе Ethernet-фабрик — от проектирования топологии до ввода в эксплуатацию. В большинстве проектов на базе HGX H200 мы используем и рекомендуем оптические модули ITPOD — они прошли тестирование в реальных конфигурациях, верифицированы на совместимость с ConnectX-7 и коммутаторами Spectrum, и производятся с чётким разделением тепловых типов: RHS для серверных адаптеров, Finned Top для коммутационного оборудования.

Решения уровня HGX H200 обходятся заказчику в значительные суммы — и любая работа по оптимизации экономики проекта имеет смысл. Использование совместимых модулей ITPOD позволяет снизить стоимость оптической инфраструктуры без ущерба для надёжности и производительности кластера. Но главное — уверенность в том, что на этапе монтажа не возникнет сюрпризов с совместимостью, которые срывают сроки и выходят за рамки бюджета.

Сети на 400/800 Гбит/с — это новая норма для ИИ-инфраструктуры. Опыт интеграции таких решений пока редкость. Именно поэтому выбор партнёра с реальным практическим опытом — одно из ключевых решений при старте проекта.