Архитектура NVIDIA Ampere
Архитектура NVIDIA Ampere, представленная в 2020 году, разработана для высокопроизводительных вычислений, искусственного интеллекта (ИИ) и машинного обучения (ML). Включает потребительские GPU GeForce RTX 30 и серверные ускорители A100.
Используемые технологии
Тензорные ядра (Tensor Cores) 3-го поколения
Оптимизированы для матричных операций, критичных в нейросетевом обучении. Поддерживают TF32 для ускоренного обучения и FP64 для вычислений двойной точности. TF32 сочетает скорость FP16 и точность FP32, что значительно ускоряет процесс обучения без необходимости изменения кода. FP64 расширяет возможности Ampere в научных и инженерных расчетах, позволяя выполнять сложные вычисления с высокой точностью. Эти ядра также поддерживают структурную разреженность, что удваивает пропускную способность операций матричного умножения.
RT-ядра (RT Cores) 2-го поколения
Аппаратные блоки трассировки лучей, обеспечивающие удвоенную скорость обработки отражений и теней по сравнению с Turing. Улучшенный алгоритм обработки BVH (Bounding Volume Hierarchy) снижает задержки при расчётах освещения, а поддержка функции Shader Execution Reordering (SER) позволяет более эффективно распределять вычислительные ресурсы. RT-ядра также оптимизированы для использования с DLSS, что повышает производительность в сценах с интенсивной трассировкой лучей.
CUDA-ядра
Обеспечивают параллельные вычисления. В Ampere увеличена плотность FP32-блоков, что повышает производительность в инженерных и научных задачах. Улучшенная архитектура позволяет исполнять больше инструкций FP32 за такт, что особенно важно для симуляций, финансовых расчетов и аналитики больших данных. В комбинации с оптимизированным кэшированием и увеличенной пропускной способностью памяти это делает Ampere эффективным решением для широкого спектра вычислительных нагрузок.
Архитектурные улучшения
[card_grid class=»extended extended—full cards-row-num-3 card-without-btn card_grid—white card_grid—title-strong card_grid—pt-without card_grid—pd-medium «][card link=»» title=»8-нм технологический процесс» icon=»» ]Производство на фабриках Samsung с плотностью транзисторов выше, чем у 12-нм чипов Turing. Например, GA102 (RTX 3090) содержит 28 млрд транзисторов.
[/card][card link=»» title=»PCIe 4.0″ icon=»» ]Поддержка интерфейса PCI Express 4.0, удваивающего пропускную способность до 32 ГБ/с.
[/card][card link=»» title=»NVLink 3-го поколения» icon=»» ]Обеспечивает пропускную способность до 600 ГБ/с в серверных решениях, позволяя объединять до 8 GPU.
[/card][/card_grid] [card_grid class=»extended extended—full cards-row-num-2 card-without-btn card_grid—white card_grid—title-strong card_grid—pt-without card_grid—pd-medium «][card link=»» title=»Multi-Instance GPU (MIG)» icon=»» ]Разделяет GPU на 7 изолированных экземпляров в A100, что оптимально для облачных сервисов и HPC.
[/card][card link=»» title=»Структурная разреженность (Structural Sparsity)» icon=»» ]Оптимизирует вычисления ИИ, позволяя ускорять операции за счёт отбрасывания избыточных данных.
[/card][/card_grid]Оптимизация вычислений
Streaming Multiprocessor (SM)
Включает переработанную архитектуру с увеличенным числом блоков FP32 и возможностью одновременной работы RT- и шейдерных задач.
Shader Execution Reordering (SER)
Уменьшает задержки в трассировке лучей, повышая эффективность вычислений в сложных сценах.
RTX IO
Обеспечивает ускоренную загрузку и декомпрессию данных SSD в GPU, снижая нагрузку на процессор. [text_with_btn btn=»Узнать больше» link=»https://itglobal.com/ru-ru/services/platform-services/3d-vdi-kak-servis-gpu-daas/»]Аренда серверов 3D VDI[/text_with_btn]
Применение
Архитектура используется в обучении нейросетей, моделировании и развитии технологий искусственного интеллекта (A100, NVIDIA DGX). Также она применяется в вычислительной физике, климатическом моделировании и финансовых прогнозах.
Основные модели
- NVIDIA A100 – серверный ускоритель для ИИ и научных вычислений.
- GeForce RTX 3090/3080 – решения для профессионалов в графике и контенте.