Инференс нейросетей

Что такое инференс нейросетей

Инференс (inference) — этап работы AI-системы, на котором уже обученная модель принимает новые данные и выдаёт результат: текст, классификацию, вектор, изображение. Это продакшн-фаза жизни модели в отличие от обучения, которое предшествует её развёртыванию.

Как работает инференс

Запрос поступает в систему инференса, данные предобрабатываются и подаются в модель. GPU выполняет прямой проход по слоям сети (forward pass) — матричные умножения и нелинейные преобразования — и возвращает результат. В высоконагруженных системах запросы объединяют в батчи: модель обрабатывает несколько запросов за один проход, что повышает утилизацию GPU. Основные метрики инференса — latency (время ответа на запрос) и throughput (количество запросов в секунду).

Зачем это важно для бизнеса

Качество пользовательского опыта в AI-продуктах прямо зависит от инференса: чат-бот, отвечающий за 300 мс, воспринимается иначе, чем за 3 секунды. Неправильно подобранная инфраструктура инференса приводит к перерасходу бюджета или к деградации сервиса при пиковых нагрузках.

Практический пример

Банк запускает корпоративный ИИ-ассистент на базе LLM (34B параметров) для 2 000 сотрудников. Веса модели в FP16 занимают ~68 ГБ из 96 ГБ VRAM на одном NVIDIA RTX PRO 6000 Blackwell. Оставшиеся ~28 ГБ уходят под KV-cache при типовой длине контекста. Это обеспечивает latency p95 менее 1 с при нагрузке до нескольких десятков одновременных запросов. При попытке запустить ту же модель на типовом CPU-сервере без GPU отклик составляет 15–20 секунд, то есть использование в рабочем процессе становится невозможным.