Розничные компании ежегодно накапливают огромные массивы данных. При профессиональном анализе информации можно повысить эффективность использования бюджетов маркетинговых компаний от 95% и выше, прогнозировать оптимальные складские запасы и снижать издержки. Четко понимая предпочтения покупателей, можно увеличить и средний чек. Однако зачастую проекты по внедрению Data Science не приносят ожидаемого результата. Почему это происходит, какие ошибки допускают компании, как оценить готовность бизнеса к работе с данными – об этом в нашем обзоре.
Нездоровый оптимизм
Сегодня почти все компании, накапливая большие объемы информации, знают, что системная работа с ними может принести пользу. При помощи Data Science можно увеличить эффективность бизнеса и снизить затраты, но на этом знание заканчивается. Инициируя проекты по внедрению Data Science, бизнес зачастую переоценивает свои возможности. В процессе реализации выясняется, что каких-то данных не хватает, а каких-то, наоборот, слишком много и непонятно, что именно надо использовать. Данные хранятся в разных источниках и форматах, и их надо объединять, трансформировать по каким-то параметрам.
По оценке Gartner, 85% проектов в области Data Scince проваливаются. А по подсчетам VentureBeat, только один из десяти проектов по внедрению искусственного интеллекта «выстреливает» и реализуется на практике. А все потому, что управлять такими проектами сложно, часто они носят исследовательский характер, и трудно предсказать, сколько времени потребуется на их завершение и какой в конечном итоге получит результат бизнес.
Эксперты сравнивают внедрение Data Science с марафоном на длительные дистанции, в котором последние 10 км самые тяжелые, потому что это долго, дорого и тяжело. Например, ритейлеру, управляющему 50-100 магазинами, проект обойдется не менее, чем в 10-15 млн рублей. Затраты большие и очень важно подойти к вопросу структурирования и подбора данных в самом начале со всей ответственностью, чтобы реализация была успешной и проект не провалился.
Data Science — это получение преимуществ для бизнеса на основе применения искусственного интеллекта при помощи различных источников информации: например, история продаж по каждому покупателю, статистика запросов в поисковых системах, время проведения спортивных мероприятий. Источники данных могут быть как внутренние (накопленные в организации), так и внешние.
Для работы с такими данными используется математическая статистика и методы машинного обучения. Дата-сайентист (Data Scientist) анализирует большие данные, а его результат работы — создание прогнозной модели, которая помогает предсказать поведение покупателя или факторы, которые оказывают существенное влияние на рост продаж.
«Сначала в компании царит большое возбуждение и искушение, от того, что волшебная пилюля под названием Data Science решит все задачи. Зачастую ожидания от проекта в этот период могут быть несколько завышенными. Рисуются выгоды, что сейчас как начнем запускать новые продукты на научной основе, прогнозировать складские запасы и будет всем нам счастье. Но этого не происходит», - рассказывает Евгений Пажитнов, старший инженер по решениям компании Oracle.
Замахнулись на Data Science, а не имели даже CRM
В ритейле Data Science поможет, например, минимизировать остатки товара и прогнозировать минимальное количество каждой позиции на конкретном складе и в магазине для удовлетворения спроса. Также за счет структурирования данных можно увеличить средний чек. Возьмем хрестоматийный пример: если папа пришел купить подгузники в пятницу вечером, то ему надо предложить на кассе пиво со скидкой. Идентифицировать покупателя на кассе и сделать ему персональное промо-предложение как раз и призвана Data Science.
По словам Василия Захарова, head of Big data products & software development сети «Лента», в России крупнейшие офлайновые ритейлеры находятся сейчас на стадии бета-тестирования разных гипотез при помощи анализа больших данных. Какие из них сработают через несколько лет, неизвестно. Но, например, мировой опыт розничной торговли показывает, что доля продаж персональных промо может достигать 7-8% в общей выручке. Причем, информация (какому покупателю что предложить) интересна не только сетям, но и производителям, так как, обладая ею, можно более фокусировано тратить промо-бюджеты, а не делать «ковровую бомбордировку», как сейчас.
Но если у федеральных сетей есть бюджеты и большой штат сайентистов, то средним сетям реализовывать Data Science гораздо сложней, они зачастую даже не знают, как к такому проекту подступиться.
«Например, одна средняя по масштабам розничная компания обсуждала с нами построение процессов оптовых продаж с применением новых подходов к анализу данных. Ритейлер планировал делать закупки и планировать продажи оптового подразделения при помощи новых методов машинного обучения. Но в процессе обсуждения «космического замка» под названием Data Science, выяснилось, что данных пригодных для использования пока нет. А взаимодействие со своими оптовыми покупателями сотрудники ведут по электронной почте, то есть нет структурированной системы коммуникаций и сбора данных.
Поэтому первое, что мы сделали – внедрили CRM систему, в которой компания стала вести учет транзакций. Но чтобы выполнить хотя бы часть задачи, надо еще год-два набирать нужные данные. В результате было решено разделить цель на несколько фаз, по итогам первой появилась возможность делать частично предсказательные гипотезы: типы товаров, склады, магазины, зональность. В последующих фазах (после накопления новых данных) – гипотезы, связанные с качеством товара, типом упаковки, скоростью поставок, сезональностью и другими параметрами», – рассказывает Алексей Захаров, руководитель подразделения технологических решений компании Oracle.
Ложные ожидания от применения Data Science
Многие заказчики уверены, что придёт вендор и вдруг сделает на основе небольших накопленных данных Data Science, говорят эксперты. Но «вдруг» не получается. Данные нужно готовить, обогащать, структурировать, строить для них хранилище, в котором они будут готовы для работы. Часто бывает так, что данные есть, но их невозможно использовать для тех гипотез, которые применимы к этой компании. Поэтому для проверки конкретной гипотезы надо сначала определить, какие данные нужны для ее анализа.
«При этом копить информацию надо, как минимум, год или два и иметь не менее 300-400 параметров, чтобы подтвердить или опровергнуть только одну гипотезу. Нейронную сеть нельзя сразу выпускать в работу, ее надо обучить. В противном случае она может выдавать кардинальные ошибки. Задача машинных алгоритмов – увеличивать точность прогнозов от 85 до 95%», – поясняет Евгений Пажитнов.
Среди самых распространенных заблуждений в отношении Data Science в компаниях являются следующие:
▪ система машинного обучения все сделает сама без влияния человека;
▪ ожидание получения моментального эффекта и положительного результата.
Но так не бывает. Эксперты подчеркивают, что машинное обучение – это алгоритм, и без человека, который формулирует гипотезу и задает переменные, ничего работать не будет. У компании может быть много данных, но, если нет профессионала, который будет их анализировать, формулировать гипотезы, видеть зависимости покупок и увязывать их с поведением человека, то ничего не получится.
Евгений Пажитнов, Retail.ru