Где применяется HGX
- Training LLM — обучение моделей с сотнями миллиардов параметров;
- Generative AI — генерация текста, изображений, видео и аудио в реальном времени;
- Inference at Scale — миллионы запросов в секунду для сервисов уровня ChatGPT или Copilot;
- HPC — научные и промышленные расчёты: климатические модели, аэродинамика, молекулярная динамика.
Технические характеристики
- Сервер Dell XE9680 6U с воздушным охлаждением
- 2× Intel Xeon Scalable Gen4/5 (до 64 ядер)
- 32× DDR5 4800/5600 MHz RDIMM — до 2 ТБ памяти
- Поддержка до 8× GPU: NVIDIA H200 141GB SXM, AMD Instinct MI300X 192GB OAM или Intel Gaudi 3 128GB
- До 8× SATA/SAS/NVMe накопителей
Прорывная связность GPU
- NVLink — сверхбыстрая шина, объединяющая видеокарты в единый пул ресурсов;
- Пропускная способность до 900 ТБ/с на GPU H200;
- Прямая работа с общей памятью без перегрузки CPU;
- Масштабирование — от 8 GPU в сервере до сотен GPU в одной системе через NVLink Switch.
Архитектура NVIDIA SuperPOD
- Сотни GPU объединяются в единую систему с общей памятью;
- Сеть NDR 400 Gbps InfiniBand с минимальными задержками;
- Производительность: десятки ТБ/с на уровне стойки;
- Программный стек: NVIDIA Base Command + AI Enterprise.
Реальные задачи, которые решает HGX
- LLM GPT-3 (175B параметров, FP16=700GB VRAM) — полностью помещается в память одного HGX-сервера;
- Stable Diffusion XL — обучение на гигантских датасетах и тысячный инференс изображений в секунду;
- CFD, MD — симуляции с миллиардами элементов для аэродинамики и фармацевтики.
Спецификации NVIDIA HGX
| Характеристики | HGX B300 | HGX B200 |
|---|---|---|
| Форм-фактор | 8x NVIDIA Blackwell Ultra SXM | 8x NVIDIA Blackwell SXM |
| FP4 Tensor Core | 144 PFLOPS | 105 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor Core | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor Core | 2 POPS | 72 POPS |
| FP16/BF16 Tensor Core | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor Core | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64/FP64 Tensor Core | 10 TFLOPS | 296 TFLOPS |
| Общий объем памяти | До 2,3 ТБ | 1,4 ТБ |
| NVLink | 5 поколение | 5 поколение |
| NVIDIA NVSwitch™ | NVLink 5 Switch | NVLink 5 Switch |
| Пропускная способность NVSwitch GPU-GPU | 1,8 ТБ/с | 1,8 ТБ/с |
| Общая пропускная способность NVLink | 14,4 ТБ/с | 14,4 ТБ/с |
| Пропускная способность сети | 1,6 ТБ/с | 0,8 ТБ/с |
| Характеристики |
HGX H200 (4-GPU) |
HGX H200 (8-GPU) |
HGX H100 (4-GPU) |
HGX H100 (8-GPU) |
|---|---|---|---|---|
| Форм-фактор | 4x NVIDIA H200 SXM | 8x NVIDIA H200 SXM | 4x NVIDIA H100 SXM | 8x NVIDIA H100 SXM |
| FP8 Tensor Core | 16 PFLOPS | 32 PFLOPS | 16 PFLOPS | 32 PFLOPS |
| INT8 Tensor Core | 16 POPS | 32 POPS | 16 POPS | 32 POPS |
| FP16/BF16 Tensor Core | 8 PFLOPS | 16 PFLOPS | 8 PFLOPS | 16 PFLOPS |
| TF32 Tensor Core | 4 PFLOPS | 8 PFLOPS | 4 PFLOPS | 8 PFLOPS |
| FP32 | 270 TFLOPS | 540 TFLOPS | 270 TFLOPS | 540 TFLOPS |
| FP64 | 140 TFLOPS | 270 TFLOPS | 140 TFLOPS | 270 TFLOPS |
| FP64 Tensor Core | 270 TFLOPS | 540 TFLOPS | 270 TFLOPS | 540 TFLOPS |
| Общий объем памяти | 564 ГБ HBM3 | 1.1 ТБ HBM3 | 320 ГБ HBM3 | 640 ГБ HBM3 |
| Суммарная пропускная способность GPU | 19 ГБ/с | 38 ГБ/с | 13 ГБ/с | 27 ГБ/с |
| NVLink | 4 поколение | 4 поколение | 4 поколение | 4 поколение |
| NVSwitch | Н/Д | NVLink 4 Switch | Н/Д | NVLink 4 Switch |
| Пропускная способность NVSwitch GPU-GPU | Н/Д | 900 ГБ/с | Н/Д | 900 ГБ/с |
| Общая суммарная пропускная способность | 3,6 ТБ/с | 7,2 ТБ/с | 3,6 ТБ/с | 7,2 ТБ/с |
| Пропускная способность сети | 0,4 ТБ/с | 0,8 ТБ/с | 0,4 ТБ/с | 0,8 ТБ/с |