Архитектура NVIDIA Ampere

Архитектура NVIDIA Ampere, представленная в 2020 году, разработана для высокопроизводительных вычислений, искусственного интеллекта (ИИ) и машинного обучения (ML). Включает потребительские GPU GeForce RTX 30 и серверные ускорители A100.

Используемые технологии

Тензорные ядра (Tensor Cores) 3-го поколения

Оптимизированы для матричных операций, критичных в нейросетевом обучении. Поддерживают TF32 для ускоренного обучения и FP64 для вычислений двойной точности. TF32 сочетает скорость FP16 и точность FP32, что значительно ускоряет процесс обучения без необходимости изменения кода. FP64 расширяет возможности Ampere в научных и инженерных расчетах, позволяя выполнять сложные вычисления с высокой точностью. Эти ядра также поддерживают структурную разреженность, что удваивает пропускную способность операций матричного умножения.

RT-ядра (RT Cores) 2-го поколения

Аппаратные блоки трассировки лучей, обеспечивающие удвоенную скорость обработки отражений и теней по сравнению с Turing. Улучшенный алгоритм обработки BVH (Bounding Volume Hierarchy) снижает задержки при расчётах освещения, а поддержка функции Shader Execution Reordering (SER) позволяет более эффективно распределять вычислительные ресурсы. RT-ядра также оптимизированы для использования с DLSS, что повышает производительность в сценах с интенсивной трассировкой лучей.

CUDA-ядра

Обеспечивают параллельные вычисления. В Ampere увеличена плотность FP32-блоков, что повышает производительность в инженерных и научных задачах. Улучшенная архитектура позволяет исполнять больше инструкций FP32 за такт, что особенно важно для симуляций, финансовых расчетов и аналитики больших данных. В комбинации с оптимизированным кэшированием и увеличенной пропускной способностью памяти это делает Ampere эффективным решением для широкого спектра вычислительных нагрузок.

Архитектурные улучшения

[card_grid class=”extended extended–full cards-row-num-3 card-without-btn card_grid–white card_grid–title-strong card_grid–pt-without card_grid–pd-medium “][card link=”” title=”8-нм технологический процесс” icon=”” ]

Производство на фабриках Samsung с плотностью транзисторов выше, чем у 12-нм чипов Turing. Например, GA102 (RTX 3090) содержит 28 млрд транзисторов.

[/card][card link=”” title=”PCIe 4.0″ icon=”” ]

Поддержка интерфейса PCI Express 4.0, удваивающего пропускную способность до 32 ГБ/с.

[/card][card link=”” title=”NVLink 3-го поколения” icon=”” ]

Обеспечивает пропускную способность до 600 ГБ/с в серверных решениях, позволяя объединять до 8 GPU.

[/card][/card_grid] [card_grid class=”extended extended–full cards-row-num-2 card-without-btn card_grid–white card_grid–title-strong card_grid–pt-without card_grid–pd-medium “][card link=”” title=”Multi-Instance GPU (MIG)” icon=”” ]

Разделяет GPU на 7 изолированных экземпляров в A100, что оптимально для облачных сервисов и HPC.

[/card][card link=”” title=”Структурная разреженность (Structural Sparsity)” icon=”” ]

Оптимизирует вычисления ИИ, позволяя ускорять операции за счёт отбрасывания избыточных данных.

[/card][/card_grid]

Оптимизация вычислений

Streaming Multiprocessor (SM)

Включает переработанную архитектуру с увеличенным числом блоков FP32 и возможностью одновременной работы RT- и шейдерных задач.

Shader Execution Reordering (SER)

Уменьшает задержки в трассировке лучей, повышая эффективность вычислений в сложных сценах.

RTX IO

Обеспечивает ускоренную загрузку и декомпрессию данных SSD в GPU, снижая нагрузку на процессор. [text_with_btn btn=”Узнать больше” link=”https://itglobal.com/ru-uz/services/platform-services/3d-vdi-kak-servis-gpu-daas/”]Аренда серверов 3D VDI[/text_with_btn]

Применение

Архитектура используется в обучении нейросетей, моделировании и развитии технологий искусственного интеллекта (A100, NVIDIA DGX). Также она применяется в вычислительной физике, климатическом моделировании и финансовых прогнозах.

Основные модели

NVIDIA A100 – серверный ускоритель для ИИ и научных вычислений.
GeForce RTX 3090/3080 – решения для профессионалов в графике и контенте.