Готовы ли данные вашей компании к машинному обучению?

Искусственный интеллект и технологии машинного обучения получили в последнее время высокую популярность в корпоративном секторе, но большинство компаний пока не понимают, как правильно использовать свои данные и какую прикладную пользу можно из этого извлечь.

Forbes Insights в сотрудничестве с Dell Technologies и Intel опросил более 700 топ-менеджеров о планах в области искусственного интеллекта и машинного обучения. В то время как три из четырех CxO (Chief experience officer) говорят, что ИИ является ключевым компонентом их планов digital-развития, менее 25 процентов внедрили его в своей организации.

Лишь 11 процентов опрошенных выполнили стратегию обработки данных в масштабах всего предприятия, и всего 2 процента говорят, что у них есть надежный процесс управления данными.

Из-за того, что большая часть данных компаний остается разрозненной, неструктурированной или иным образом плохо подготовленной для использования в моделях машинного обучения, бизнес не может получить основных выгод от использования ИИ: оптимизации операций, персонализации продуктов и прогнозирования будущих потребностей. Без правильных данных попытки использовать ИИ потерпят неудачу.

Сколько данных достаточно для машинного обучения?[Данные для машинного обучения]

Начать планирование по развитию машинного обучения в компании следует с ответов на вопросы: что мы хотим знать, что хотим прогнозировать, как это повлияет на прибыль компании? Отсюда будет понятно, какие данные потребуются компании, в каком объеме и где их найти. Однако количество и типы данных, которые понадобятся организациям, также зависят от того, какие модели машинного обучения они используют: с учителем или без учителя.

Обучение с учителем применяется чаще всего и заставляет модель искать конкретные результаты. Один из примеров — именно обучение с учителем позволяет Amazon Alexa понять, что говорят пользователи. Такой вид обучения требует значительного объема помеченных данных, но он может позволить создавать мощные прогностические модели.

Обучение без учителя включает в себя анализ пулов необработанных данных для выявления закономерностей и выявления аномалий. Например, анализ журналов компьютерной безопасности для выявления потенциальных кибератак. Количество данных, которое необходимо, зависит от потребностей в будущем функционале модели.

Если вы тренируете роботизированную руку, чтобы идентифицировать детали, проходящие мимо на конвейере, вы можете начать с набора из нескольких тысяч изображений с маркировкой, или даже меньше, в зависимости от задачи. При столкновении с более сложными задачами, такими как: диагностика полостей на рентгеновских снимках зубов или идентификация логотипов гоночных автомобилей Формулы-1 по мере того, как они проезжают мимо, необходим значительно больший набор помеченных данных.

При этом данные должны отражать фактическую ситуацию в реальном мире, ведь если, допустим, попытаться обучить модель распознавать десять разных животных, и для этого собрать миллион изображений из которых 900 000 — лошади, система подумает, что в 90% случаев правильным ответом будет “лошадь”. Такая модель будет иметь низкую прогностическую ценность в реальном мире.

Поэтому компании понадобятся три отдельных пула данных: один для обучения модели, другой для проверки ее точности и третий набор данных для проверки перед вводом системы в эксплуатацию. Получить идеальный набор данных сразу очень сложно. Это эволюционный путь, в большой степени экспериментальный. Ведь если использовать недостаточно разнообразный набор данных, то результаты могут быть с перекосом в одном из направлений, или модель, идеально обученная на малом количестве данных, не будет работать, когда столкнется с новыми данными.

Для машинного обучения нужны чистые, подготовленные данные[Подготовка данных]

Очистка данных для машинного обучения, их подготовка и разметка, если таковая требуется — это довольно рутинные задачи, среди которых присутствуют удаление дубликатов, проверка того, что поля отформатированы согласованно и т.д. Специалисты в области машинного обучения и анализа данных дорого стоят, пользуются сейчас большим спросом, и это вовсе не те люди, время которых хотелось бы тратить на эти рутинные задачи.

Среди самих специалистов часто встречаются жалобы на то, что затраты времени на сбор данных и их перевод в формат, используемый в алгоритмах, слишком велики, но, если сделать это неправильно — данные нельзя будет использовать.

Разметка больших объемов неструктурированных данных может потребоваться в самых различных ситуациях. Например, когда есть много текста отзывов из интернета и необходимо определить и обозначить метками тональность высказываний, сарказм и прочие непонятные для машины моменты.

Или, когда имеется большой пул неструктурированных случайных изображений и необходимо назначить метки, которые помогут модели машинного обучения понять, на что она смотрит. Для этого может потребоваться привлечение экспертов по предмету, которые путем ручной маркировки изображений помогут машине обучиться. Например, врачи определяют, какие рентгеновские снимки указывают на наличие или отсутствие опухолей.

Такой процесс может представлять ряд сложностей и иметь очень высокую стоимость. Для каждого конкретного случая машинного обучения компания должна принять решение, на основании оценки стоимости проекта и качества данных, как собственных, так и внешних, о том, стоит ли создавать собственные наборы данных или приобретать предварительно помеченные.

В некоторых случаях в качестве решения может помочь смешивание структурированных и и неструктурированных данных, чтобы распознать общие потоки, например, текстовые комментарии с пользовательских форумов и записи из базы данных CRM. Вдобавок к коммерческим данным может появиться возможность применить анализ настроений.

С чего начинать внедрение машинного обучения в компании[Начало машинного обучения]

Сложно прогнозировать скорый возврат инвестиций при построении платформы машинного обучения. Это может занять слишком много времени и денег, ввиду того, что специалистов в области машинного обучения еще не так много, как и данных в удобном для этого виде.

Сегодня растет число проектов в области искусственного интеллекта, которые могут оказывать услуги по построению моделей на основе данных заказчика. Собственно, развивается модель предоставления машинного обучения как сервиса. ИИ как услугу предоставляют такие гиганты, как Amazon Rekognition, Clarifai и Google Cloud Vision API. Но работать с ними постоянно, пока еще слишком дорого, а функционал ограничен определенной унифицированностью платформ.

Подходящим вариантом может стать сотрудничество с провайдером, который разработает модель с учетом всех потребностей компании на внешних или ее собственных данных. Могут использоваться уже обученные или новые алгоритмы.

Это может сильно помочь бизнесу получить конкурентное преимущество, например, через выявление тех клиентов, которые собираются уйти к конкуренту, и предложить им более выгодные условия или бонусы. Также достаточно примеров, когда благодаря машинному обучению, на основе посещаемости за год строятся прогнозы по поставкам товара в магазины или на основе отзывов и комментариев из социальных сетей по регионам строится предсказание текущих и будущих потребностей населения в той или иной сфере.

Также машинное обучение помогает автоматизировать процессы и делать их более эффективными. Например, банк JPMorgan Chase подписал пятилетний контракт со стартапом в области ИИ для написания маркетинговых текстов Persado. Заголовки, созданные ИИ, оказались гораздо кликабельнее, чем те, что писали копирайтеры. База данных Persado насчитывает более миллиона слов, маркированных по тегам и эмоциональной окраске.