Обзор NVIDIA L40S: много видеопамяти для ИИ за умеренную цену

21.02.2025

Дата обновления: 28.05.2025

Если новые серверные решения на базе GPU всё ещё впечатляют вас своей мощностью, однако их стоимость вызывает определенное беспокойство, то предлагаем ознакомиться со свежей поставкой для нашего сервиса AI Cloud — NVIDIA L40S. Несмотря на то, что данное решение уступает по мощности конфигурации с восемью H100 в рамках платформы HGX, для 2025 года оно предлагает исключительное соотношение цены и производительности.

L40S: для кого она предназначена

NVIDIA L40S — это универсальный GPU на архитектуре Ada Lovelace, который сочетает в себе отличную производительность как для задач искусственного интеллекта, так и для визуальных решений вроде рендеринга и 3D-графики. Ключевая особенность этой карты — её 48 ГБ видеопамяти GDDR6 с ECC. Такой объём памяти особенно важен для нейросетей. Даже модели среднего размера, содержащие несколько миллиардов параметров, требуют огромных объёмов данных для обучения и работы. А для более крупных моделей, с числом параметров превышающим 100 миллиардов, эти требования возрастают многократно.

При работе, к примеру, с большими языковыми моделями или генеративными сетями вроде LLaMA или Stable Diffusion, видеопамять становится тем узким местом, которое может сильно ограничить процесс файн-тюнинга и выполнение прочих рядовых задач. L40S предоставляет достаточный объём памяти для работы с такими большими моделями, при этом оставаясь в рамках вашего бюджета. Особенно если сравнивать с топовыми решениями, которые стоят в два-три и более раз дороже, но предлагая сравнимый размер видеопамяти.

Машинное обучение и нейронные сети

L40S оснащена 568 Тензорными ядрами четвёртого поколения, которые обеспечивают серьёзный прирост в задачах с использованием искусственного интеллекта. FP8-вычисления и поддержка смешанных форматов (FP8, FP16) позволяют обрабатывать большие массивы данных значительно быстрее, что напрямую сказывается на скорости обучения и инференса моделей. А учитывая тот факт, что память не заполняется моментально даже при работе с крупными датасетами, L40S становится отличным выбором для задач вроде компьютерного зрения и NLP (обработка естественного языка).

Хотя H100 сохраняет позицию флагмана, L40S предлагает примерно 1.7-кратное увеличение производительности вывода по сравнению с A100 — проверенным временем решением, которое, несмотря на выпуск в 2020 году, сохраняет актуальность и сегодня.

* Изображение из блога Exxact

Графика и рендеринг

L40S, как и многие решения NVIDIA, имеет на борту RT-ядра третьего поколения (их тут 142), что делает её отличным выбором для рендеринга и создания высококачественной 3D-графики. Если вы параллельно с нейросетями занимаетесь визуализацией или виртуальным производством, эта карта способна обработать и такие задачи. Благодаря 48 ГБ памяти и третьему поколению RT-ядер, L40S удваивает производительность рейтрейсинга по сравнению с A100, что открывает возможности для создания реалистичных 3D-сцен в реальном времени.

Важность объёма видеопамяти

Вернёмся к ключевому преимуществу L40S — её 48 ГБ видеопамяти. Для машинного обучения объём памяти напрямую определяет, сколько данных можно обработать за одну итерацию обучения или предсказания. Если у вас недостаточно памяти, задачи обучения могут растянуться на недели. L40S предоставляет достаточно объёма для того, чтобы вы могли эффективно обучать и тестировать модели среднего и большого масштаба.

Особенно это касается генеративных моделей по типу LLM или диффузионных, которые крайне прожорливы до видеопамяти, особенно в вариантах на несколько десятков миллиардов параметров. С L40S вы сможете быстрее выводить и обучать модели, при этом не теряя скорость работы из-за нехватки ресурсов.

Получить консультацию и узнать стоимость аренды облачных серверов с GPU

Результаты практического тестирования

Проведённое тестирование производительности L40S в различных сценариях использования предоставило впечатляющие результаты. При работе с LLaMA 3.1 70B в конфигурации INT4 два ускорителя L40S продемонстрировали существенное преимущество над одним A800, обеспечив увеличение скорости обработки почти в 1.8 раза (1475.08 против 852.55 в секунду на наборе в 1000 промптов). При расширении набора до 10000 промптов преимущество сохранилось, достигнув 1556.16 против 948.93 токенов в секунду.

Особенно заметна разница в тестировании с Qwen 2.5 14B: при обработке 1000 промптов конфигурация с двумя L40S показала 3943.29 токенов в секунду, что лишь незначительно уступает результату A800 (4003.48 токенов в секунду). Однако при увеличении нагрузки до 10000 промптов система на базе L40S смогла немного превзойти A800, достигнув 4248.22 токена в секунду, что подтверждает её стабильную производительность при масштабировании.

Тестирование более лёгкой модели Qwen 2.5 7B проводилось с запуском двух инстансов: один на каждой из двух L40S и два на A800. Конфигурация с L40S обеспечила суммарную пропускную способность около 6126.35 + 6205.07 = 12 331.42 токенов в секунду, в то время как A800 показала 7249.81 токенов в секунду. Несмотря на некоторое отставание, результаты демонстрируют, что L40S обеспечивает хорошее соотношение цена/производительность для параллельного выполнения задач среднего масштаба.

Заключение

Если вам нужно мощное, но при этом доступное решение для работы с нейросетями и визуальными задачами, NVIDIA L40S — это то, что может закрыть большинство ваших потребностей. Да, её производительность не достигает уровня флагманских решений, но 48 ГБ видеопамяти и хорошая пропускная способность делают её отличным выбором для задач, связанных с ИИ. В 2025 году, когда требования к памяти для нейросетей только растут, L40S предоставляет достаточно ресурсов для эффективной работы без необходимости инвестировать в топовые и дорогие решения вроде H100.

Если же вам уже сейчас нужно готовое решение для работы с нейросетями, то наша платформа AI Cloud сможет удовлетворить ваши потребности. В рамках неё вам доступны как L40S, так и H100 из нашего прошлого обзора, а также множество других графических ускорителей. Если же вы стремитесь создать собственную платформу, то и с этим ITGLOBAL.COM сможет вам помочь, выступив как системный интегратор, в зависимости от ваших требований. Будь то просто поставка необходимого оборудования или же полноценное проектирование, сопровождение и поддержка всей инфраструктуры с нуля.

Оцените данную статью