На предыдущую страницу

Архитектура NVIDIA Ampere

Архитектура NVIDIA Ampere, представленная в 2020 году, разработана для высокопроизводительных вычислений, искусственного интеллекта (ИИ) и машинного обучения (ML). Включает потребительские GPU GeForce RTX 30 и серверные ускорители A100.

Используемые технологии

Тензорные ядра (Tensor Cores) 3-го поколения

Оптимизированы для матричных операций, критичных в нейросетевом обучении. Поддерживают TF32 для ускоренного обучения и FP64 для вычислений двойной точности. TF32 сочетает скорость FP16 и точность FP32, что значительно ускоряет процесс обучения без необходимости изменения кода. FP64 расширяет возможности Ampere в научных и инженерных расчетах, позволяя выполнять сложные вычисления с высокой точностью. Эти ядра также поддерживают структурную разреженность, что удваивает пропускную способность операций матричного умножения.

RT-ядра (RT Cores) 2-го поколения

Аппаратные блоки трассировки лучей, обеспечивающие удвоенную скорость обработки отражений и теней по сравнению с Turing. Улучшенный алгоритм обработки BVH (Bounding Volume Hierarchy) снижает задержки при расчётах освещения, а поддержка функции Shader Execution Reordering (SER) позволяет более эффективно распределять вычислительные ресурсы. RT-ядра также оптимизированы для использования с DLSS, что повышает производительность в сценах с интенсивной трассировкой лучей.

CUDA-ядра

Обеспечивают параллельные вычисления. В Ampere увеличена плотность FP32-блоков, что повышает производительность в инженерных и научных задачах. Улучшенная архитектура позволяет исполнять больше инструкций FP32 за такт, что особенно важно для симуляций, финансовых расчетов и аналитики больших данных. В комбинации с оптимизированным кэшированием и увеличенной пропускной способностью памяти это делает Ampere эффективным решением для широкого спектра вычислительных нагрузок.

Архитектурные улучшения

8-нм технологический процесс

Производство на фабриках Samsung с плотностью транзисторов выше, чем у 12-нм чипов Turing. Например, GA102 (RTX 3090) содержит 28 млрд транзисторов.

PCIe 4.0

Поддержка интерфейса PCI Express 4.0, удваивающего пропускную способность до 32 ГБ/с.

NVLink 3-го поколения

Обеспечивает пропускную способность до 600 ГБ/с в серверных решениях, позволяя объединять до 8 GPU.

Multi-Instance GPU (MIG)

Разделяет GPU на 7 изолированных экземпляров в A100, что оптимально для облачных сервисов и HPC.

Структурная разреженность (Structural Sparsity)

Оптимизирует вычисления ИИ, позволяя ускорять операции за счёт отбрасывания избыточных данных.

Оптимизация вычислений

Streaming Multiprocessor (SM)

Включает переработанную архитектуру с увеличенным числом блоков FP32 и возможностью одновременной работы RT- и шейдерных задач.

Shader Execution Reordering (SER)

Уменьшает задержки в трассировке лучей, повышая эффективность вычислений в сложных сценах.

RTX IO

Обеспечивает ускоренную загрузку и декомпрессию данных SSD в GPU, снижая нагрузку на процессор.

Аренда серверов 3D VDI

Применение

Архитектура используется в обучении нейросетей, моделировании и развитии технологий искусственного интеллекта (A100, NVIDIA DGX). Также она применяется в вычислительной физике, климатическом моделировании и финансовых прогнозах.

Основные модели

  • NVIDIA A100 – серверный ускоритель для ИИ и научных вычислений.
  • GeForce RTX 3090/3080 – решения для профессионалов в графике и контенте.
Оцените данную статью
Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies