• Главная
  • Новости
  • Как российские компании используют data fusion для получения ценных инсайтов

Как российские компании используют data fusion для получения ценных инсайтов

27.05.2021

Работа с большими данными позволила компаниям совершить качественный скачок в изучении потребительских привычек и предпочтений, поиске новой аудитории и разработке новых персонифицированных продуктов. Уже сейчас аналитика big data позволяет сопоставлять цепочки трансакций для выявления подозрительных паттернов, пресекать мошенничество с банковскими картами и выявлять связь между психологическим комфортом сотрудников и расстоянием до места работы. О том, какие дополнительные возможности откроет бизнесу технология сквозного объединения данных, рассказывает начальник управления моделирования КИБ и СМБ ВТБ Артем Летин.

Большие данные иногда называют новой нефтью, и, учитывая возможности, которые они открывают, это сравнение даже умаляет их перспективы. В 2015 году big data в работе использовали 17% компаний по всему миру, сейчас их число выросло втрое — до 55% в США и 53% в Европе и Азии. Основные игроки рынка больших данных — IT, финансовые компании и ретейл, но сейчас все больше проектов на основе big data появляется в аграрном секторе, логистике и даже HR. Ключевое направление использования больших данных — исследование потребителя и получение инсайтов о клиентском поведении.

Сегодня основные данные, на основе которых проводится аналитика, — это сведения о трансакциях, которые собирают банки, история покупок, которую хранят ретейлеры, геолокация, звонки и СМС от телекома и цифровой след (поисковые запросы, соцсети, поведение на сайте) в IT-компаниях.

Инсайт

Производители антигистаминных препаратов долгое время считали своей целевой аудиторией молодежь, которая заботится о внешности, но анализ соцсетей показал совсем другое — целевой аудиторией оказались мамы детей, страдающих от аллергии. Это один из типичных примеров инсайтов, полученных благодаря аналитике больших данных. Это показывает, что большие данные не только облегчают рабочие процессы продающим компаниям, но и помогают людям удовлетворить их потребности. Так, в ретейле это позволяет группировать товары, которые чаще всего покупают вместе, и располагать их на соседних полках супермаркетов. В этом случае использование больших данных помогает людям экономить время при поиске продуктов, а супермаркетам — увеличить вероятность покупки дополнительных товаров. Другой пример — системы рекомендаций в маркетплейсах (Lamoda, Wildberries, Amazon), которые приносят до 40% выручки и основываются на истории покупок. Причем чем больше их совершено, то есть чем больше данных, тем более точную рекомендацию выдаст нейросеть.

Основным источником инсайтов является изучение любых закономерностей в массиве данных: потребительский трафик, предпочтения, повторяющиеся покупки, закономерности трансакций, круг контактов и привычные коммуникации. В зависимости от целей анализа и примененных инструментов такая аналитика позволяет разделить аудиторию на категории и на основе поведенческих моделей формировать точечное предложение. Однако на сегодняшний день сложно говорить обо всей полноте знания — ретейл ограничивается данными с камер внутри торговых точек и историей покупок, полученных с карт лояльности, а финансовая сфера располагает паспортными данными, информацией о семейном положении, доходах и расходах, но только внутри своего банка и в отрыве от других баз данных. Даже это дает огромные возможности для персонификации и предиктивной аналитики, но уже разработаны технологии, значительно расширяющие эти возможности.

Синергия данных

Технология data fusion появилась сравнительно недавно как глобальный тренд и основывается на достаточно простом принципе объединения данных из различных источников и создания с помощью алгоритмов машинного обучения производных от этих данных.

Это позволяет существенным образом обогатить внутренние данные каждой из компаний о своем клиенте, создавать комбинированные продукты и в конечном итоге в разы увеличивать продажи, не раскрывая внутренние данные. Таким образом решаются две задачи — получение ценных инсайтов за счет обогащения данных и сохранение конфиденциальности.

Для реализации технологий data fusion зачастую необходимо создать массивные облачные data lake с целью возможности привлечения ценных компаний-партнеров и создания синергии.

Значительный шаг в этом направлении был сделан в марте 2020 года, когда ВТБ и «Ростелеком» зарегистрировали компанию «Платформа больших данных», которая занимается разработкой и монетизацией продуктов на основе обработки big data. Основу работы платформы составляют деперсонализированные и зашифрованные данные, собранные разными партнерами. Клиенты платформы получают продукты и услуги на основе партнерских данных, анализа цифрового профиля потребителей и использования синтетических данных, произведенных с помощью алгоритмов машинного обучения.

Банк ВТБ использует синергию данных для решения широкого спектра задач, в том числе для повышения точности своих алгоритмов машинного обучения за счет синергии с другими алгоритмами и обогащения внешними данными своих знаний о клиенте для закрытия «серых» зон и получения ценных инсайтов.

Если приводить частные примеры, то необходимо рассказать про подходы data fusion, которые уже сейчас дают возможность ВТБ решать задачи графовой аналитики на качественно новом уровне.

Одной из наиболее остро стоящих проблем, возникающих при анализе графов, является проблема получения наиболее полных данных о вершинах и взаимосвязях объектов графа. Существуют регуляторные ограничения, не позволяющие, например, телеком-операторам делиться своими данными с банками, а кредитным организациям отдавать данные о трансакциях или кредитах вовне.

Для решения данной проблемы на помощь приходит концепция data fusion и алгоритмы/подходы для создания обезличенных подграфов для обмена данными на уровне локальных подграфов, где центральной частью является клиент, а дальше его связи. Возникает термин embedding и задача по управлению его свойствами для максимизации полезности его применения у компании-партнера. Нам в данном случае становится не важно, с кем конкретно связан клиент, нам важна геометрия его связи и раскраска вершин, с которыми он связан, потенциально влияющая на задачу, которую мы решаем. Например, раскраска вершин с точки зрения начисления объема поступающей выручки или количества взаимных трансакций с нашим объектом. Таким образом, объединение на низком уровне через создание embeddings для решения конкретной задачи позволяет добиться синергии. Как показывает практика, метрики, посчитанные на обезличенном графе, могут сами по себе обеспечить уровень предсказательной способности до 60% джини. Что в разы превосходит стандартные метрики, основанные на расчетах метрик центральности, косинуса расстояния и т. п.

Крупные игроки российского рынка («Яндекс», «Ростелеком», «Сбер», Mail.ru Group) уже активно внедряют data fusion в маркетинге, финансах, при разработке новых продуктов. В глобальном смысле технология позволяет создавать цифровой профиль любого объекта и использовать его для последующего анализа. Таким образом, организация минимизирует риски раскрытия информации, а клиент получает быструю и удобную коммуникацию. Например, значительно увеличится скорость проверки юрлица банком.

Уже сейчас применение технологии показывает рост эффективности. Например, объединение данных позволяет сегментировать аудиторию в обезличенные поведенческие группы и выстраивать персонифицированную коммуникацию: подбирать креативы, цвета, ключевые слова и даже предугадывать желания, чтобы предложить новый продукт еще до осознания его потребности.

Так, применение технологии сквозного объединения данных позволило ВТБ персонифицировать маркетинговую коммуникацию. Клиенты банка были сегментированы на множество поведенческих групп, для каждой из которых были разработаны релевантные форматы коммуникации с точечным предложением, ключевыми словами и даже удобным способом представления данных. Для одной категории клиентов сообщение апеллировало к эмоциям и визуальной части объявления, для другой — к рациональности и содержало конкретные численные показатели выгоды. Согласно внутренним исследованиям, такой подход повысил эффективность рекламы. Например, на 50% выросла узнаваемость бренда ВТБ после просмотра персонифицированной рекламы, на 7% выросло желание дополнительно изучить бренд, а конверсия из визитов на предоставление продукта выросла на 44%.

Другой пример использования технологии сквозного объединения данных — геоаналитические продукты для управления пассажиропотоком, разработанные Tele2 на основе анализа деперсонализированных данных о перемещении пользователей. Это позволяет прогнозировать объем трафика в аэропортах, на вокзалах, дорогах и уже на основе таких прогнозов моделировать наиболее эффективные маршруты, покрывающие потребность населения. Например, подбирать необходимую частоту движения общественного транспорта. Это помогает разгрузить пассажиропоток в час пик, что сокращает людям время в пути, а также облегчает использование общественного транспорта.

Технологичная экстрасенсорика

Аналитические алгоритмы, построенные на основе объединенных данных, позволят максимально автоматизировать рутинные процессы в жизни потребителя. Например, в приложении банка появится финансовый помощник, который на основе истории покупок, трансакций, перемещений и интересов сможет рекомендовать релевантный банковский продукт или инвестиционную программу. Приложения ретейлеров для доставки еды научатся автоматически формировать продуктовую корзину, опираясь на частоту и состав покупок. Из рекламы исчезнут спам и нецелевые предложения.

Причем усовершенствовать бизнес-процессы и выстроить более тесное общение с потребителем смогут не только крупные игроки. Они благодаря техническим возможностям смогут создавать платформы для привлечения все большего количества компаний-партнеров для создания и обмена все большими объемами кросс-индустриальных данных о клиенте, что может выступить одним из новых драйверов нового этапа развития российской экономики. Таким образом, технология найдет применение во все более широком спектре направлений, обеспечивая бизнес ценным знанием о клиенте, а потребителя — уникальными целевыми предложениями или новыми инфраструктурными решениями. В широком смысле такие технологии позволят предугадывать желание клиентов, точно определять целевые аудитории и повышать эффективность бизнеса.