ITGLOBAL.COM предоставила GPU-инфраструктуру для обучения ML-моделей компании из финтех-сектора

Компания ITGLOBAL.COM (международное облачное направление корпорации ITG) предоставила GPU-инфраструктуру для обучения ML-моделей одной из российских компаний из финтех-сектора. Решение позволило ускорить запуск новых сервисов, повысить скорость подготовки и обучения моделей, а также снять инфраструктурные ограничения, которые замедляли работу команд специалистов по машинному обучению и аналитике данных.

Клиентом ITGLOBAL.COM стала компания из финтех-сектора, развивающая цифровые сервисы в области скоринга, персонализированных предложений и прогнозной аналитики. Для работы этих продуктов заказчик регулярно обучал ML-модели на больших массивах транзакционных, поведенческих и CRM-данных. По мере роста числа сервисов и объема данных существующей инфраструктуры перестало хватать: обучение моделей занимало слишком много времени, вычислительные ресурсы приходилось распределять между командами, а запуск новых инициатив замедлялся. При этом развертывание нового собственного on-prem-кластера требовало значительных капитальных вложений и на данном этапе оказалось для заказчика экономически нецелесообразным.

До перехода в облачную GPU-инфраструктуру часть моделей обучалась на CPU-ресурсах, часть — на локальных GPU с ограниченным доступом. В результате обучение отдельных моделей занимало до 30–36 часов, а командам приходилось часами ждать свободные мощности, выстраивая очередь на доступ к единственному GPU-серверу. Вынужденная последовательная работа снижала скорость проверки гипотез, усложняла A/B-тестирование и увеличивала срок вывода новых ML-сценариев в продакшн.

Для решения задачи ITGLOBAL.COM предоставила заказчику облачную GPU-инфраструктуру на базе NVIDIA H200 с несколькими конфигурациями под разные этапы работы — от пилотного тестирования до полноценных production-нагрузок. Выбор H200 был обусловлен спецификой задач заказчика: 141 ГБ памяти HBM3e и высокая пропускная способность позволяют обучать крупные модели без существенных ограничений по размеру пакета данных, а поддержка технологии MIG (разделения одного GPU на несколько изолированных экземпляров) дала возможность нескольким командам работать параллельно на одном графическом процессоре, не блокируя друг друга. На платформе были развернуты среды для обучения моделей классификации, прогнозирования оттока, рекомендательных алгоритмов и NLP-задач. Заказчик получил возможность гибко масштабировать ресурсы в зависимости от объема данных и сложности эксперимента, не закупая собственное оборудование и не резервируя мощности под пиковую нагрузку.

Ссылка на источник