Data
Fusion
Международная конференция и онлайн-соревнование в концепции Data Fusion. Data Fusion — это концепция, которая предполагает объединение данных, слияние или перенос алгоритмов из одной области машинного обучения в другую, а также синергию процессов в машинном обучении. Уже сегодня она помогает достигать наибольшего бизнес-результата, дает импульс к появлению новых продуктов и компаний и вызывает интерес крупнейших российских корпораций и представителей международного научного сообщества.
27 января — 21 марта
Cоревнование
 
30 марта — 31 марта
Международная
Конференция
соревнование
Оцифруйте экономику потребления в России вместе с Группой ВТБ, классифицируя данные из смоделированных чеков по категориям. Чеки — цифровой слепок структуры спроса, основы любой экономики. Для соревнования сгенерирован беспрецедентный датасет — 7 000 000 чеков. Погрузитесь в Big Data, заявите о себе в data science-сообществе и проверьте, удастся ли банку улучшить user experience и стать еще ближе к клиенту?
 
27 января — 21 марта
 
Онлайн-соревнование
22 марта — 29 марта
 
Проверка решений,
определение
финалистов
31 марта
 
Торжественное награждение
финалистов онлайн-соревнования
задачи
  • Goodsification
    Классификация данных из чеков
  • Brandefine
    Определение бренда товара
Призовой фонд
2 000 000 ₽ *
* после вычета налогов
Международная
Конференция
Data Fusion
Международная конференция Data Fusion посвящена синергии данных, в том числе межотраслевых, и качественно новым модельным подходам к их монетизации и объединению.
Понимание реальных нужд клиента и эффективная коммуникация с соблюдением его личного пространства сегодня становятся сильным конкурентным преимуществом. На конференции ведущие игроки бизнеса и научного сообщества обсудят последние интересные DS решения, которые позволяют обеспечить новый уровень персонализации общения с клиентом.
30 марта — 31 марта
Спикеры
Программа конференции
30 марта
Business Fusion
31 марта
ML Fusion
Python Stage
  • 15:00 – 15:10
    Открытие конференции. Приветственное слово  
  • 15:10 – 15:30
    Интервью. Keynote speaker
  • 15:30 – 16:00
    Церемония награждения победителей соревнования Data Fusion Awards
    Награждение победителей Data Fusion Contest
    Два месяца более 1000 участников работают с уникальным, специально сформированном для соревнования, датасетом. Перед участниками стоит две задачи: создать уникальный классификатор клиентских сервисов банка, который поможет персонифицировать коммуникации с клиентами; и определить бренд товара из названия продукта с помощью актуальных NLP-методов.
    Призовой фонд соревнования - 2 000 000 рублей.
  • 16:00 – 17:00
    Дискуссия «Правовые вопросы концепции Data Fusion»
    При поддержке компании Dentons
    Модератор: Виктор Наумов
    управляющий партнер офиса, Dentons
  • 17:00 – 18:30
    Data Fusion и работа с клиентами
    Модератор: Сергей Голицын
    Вице-президент, заместитель руководитель департамента анализа данных и моделирования, ВТБ
    Следующие шаги ВТБ в Data Fusion.
    Денис Суржко, начальник управления перспективных алгоритмов машинного обучения, ВТБ
    Кейс ВТБ с embeddings
    Дмитрий Берестнев, управляющий директор, департамент анализа данных и моделирования, ВТБ
    Data Fusion в трансграничных перевозках
    Алексей Деревянкин, руководитель подразделения Data Science, Почта России
    Геоаналитические продукты TELE2 для управления пассажиропотоком. (кейсы с РЖД и аэропортами)
    Деперсонализированные перемещения населения в совокупности с современными методами обработки больших данных позволяют контролировать потоки пассажиров на объектах транспортной инфраструктуры (аэропорты, авиакомпании, вокзалы, маршруты, дороги и т.д.) Выполнять прогнозы и регулировать трафик по направлениям, географии маршрутов, и типам транспорта. Продукты геоаналитики направлены на повышение доступности транспорта для населения, увеличению эффективности предприятий и развитию отрасли в целом. В основу разработки таких продуктов легли инновационные методы моделирования маршрутов и треков перемещения абонентов мобильной сети разработанные в TELE2
    Константин Загуменнов, руководитель продуктов больших данных в госсекторе и Вадим Уваров, TechLead проектов по исследованию больших данных, Tele2
    Формула МультиКарты: machine learning + уберизация = инновационные решения для сервиса оборудования
    Мультикарта реализует несколько проектов, направленных на значительное преобразование существующей бизнес-модели оказания сервисных услуг для эквайрингового оборудования с использованием искусственного интеллекта, блокчейна и модели уберизации. Решение ряда поставленных задач требует использования подходов по слиянию данных из различных источников: датчиков работы оборудования, транзакционных данных, информации об остатках денежных средств и др. Мы рассмотрим модель трансформации сервисного обслуживания эквайрингового оборудования по убер-модели с использованием смарт-контрактов для размещения заявок на ремонт в публичное облако и расчетов с исполнителями, а также технологий динамического ценообразования; и использование искусственного интеллекта для прогнозирования поломок эквайрингового оборудования, позволяющее значительно снизить простои оборудования и повысить доступность сети.
    Кирилл Свириденко, генеральный директор, Мультикарта
  • 18:30 – 19:30
    Сквозное объединение данных
    При поддержке компании «Платформа Больших Данных»
    Ежедневно каждый человек оставляет за собой сотни цифровых следов: с каждым отправленным сообщением, заказанным товаром, оплаченной покупкой, полученной скидкой мы знаем больше о наших реальных и потенциальных клиентах. Теперь перед крупными корпорациями стоит лишь одна задача – «склеить» все эти активности и получить хорошо насыщенный цифровой профиль 360 градусов. Какой опыт есть у технологических компаний в решении этой задачи? Что может стать помощником, а что барьером? Какими средствами можно достичь наибольшего результата? Об этом мы поговорим на примере рекламного рынка с нашими спикерами: российскими технологическими платформами по управлению данными, крупнейшими рекламными группами и технологическими партнерами по использованию связок. Мы расскажем на конкретных примерах, как сегодня происходит склейка онлайн и оффлайн активностей и что нового это приносит бизнесу.
    Модераторы: Алексей Каштанов
    Директор по управлению данными, «Платформа Больших Данных»
    Максим Коновалихин
    Руководитель департамента анализа данных и моделирования, старший вице-президент, ВТБ - предзапись. Интро - Почему ПБД
    Участники дискуссии:
    Константин Леонович, исполнительный директор, «АмберДата»
    Денис Афанасьев, основатель, «КлеверДата»
    Глеб Никитин, генеральный директор, рекламное агентство «АдСнайпер»
    Михаил Шкляев, руководитель, Data Lab, Dentsu Aegis Network
    Александр Папков, директор по технологиям, Media Direction Group, вице-президент и сопредседатель индустриального комитета по Big Data & Programmatic IAB Russia
    Константин Степанов, директор по ключевым проектам, HFLabs
    Алексей Уткин, управляющий директор, Synaps Labs
    Максим Коновалихин, руководитель департамента анализа данных и моделирования, старший вице-президент, ВТБ
  • 19:30 – 20:00
    Keynote speaker
Anaconda Stage
  • 16:00 – 18:00
    Фабрика искусственного интеллекта – предпосылки, практика, перспектива
    В этой сессии мы поговорим о том, как удовлетворить лавинообразный рост «аппетита» бизнеса к практическому применению искусственного интеллекта. Как влияет уровень зрелости бизнеса на успешное внедрение ИИ и какие вызовы стоят при переходе от точечных внедрений к системной ИИ трансформации.
    MLOps – конвейер разработки и внедрения для создания фабрики моделей
    Как переиспользовать лучшие практики организации ИТ конвейера разработки ПО в целях создания ИИ и не потерять фокус на Data Science?
    Мы рассмотрим путь от понимания особенностей разработки и жизненного цикла моделей до адаптации лучших практик DevOps применительно к системам ИИ. Мы увидим практический пример организации инфраструктуры для массовой промышленной In-House разработки систем ИИ. Мы попробуем ответить на вопрос: Зачем нужны адаптированные инструменты и процессы MLOps. Какие они дают преимущества и возможности по сравнению с стандартным CI/CD инструментарием DevOps? В каких случаях можно использовать CI/CD DevOps без изменений, а в каких без адаптации уже не обойтись. Как влияет конвейеризация разработки и внедрения моделей на работу Data Scientist’s, какие новые требования предъявляет.
    Юрий Карев, начальник Управления процессов и стандартов моделирования и машинного обучения, ВТБ
    Мифическая воспроизводимость в ML-разработке
    Инструменты для ML Ops практик бурно развиваются. Особое внимание в них уделяется проблемам воспроизводимости результата, как на этапе разработки, так и при последующей эксплуатации ML-сервиса. Мы расскажем про основные мифы вокруг современных систем, пытающихся решить эту проблему, а также про практические сценарии их использования. Мы погрузимся в проблему вопроизводимости при построении ML-решений и опишем нерешенные проблемы, которые остаются в этой области.
    Артем Трофимов, руководитель команды разработки, Yandex DataSphere
    Инструменты CI/CD для потокового ML
    Расскажем о том, как мы за один вечер доработали нашу систему вывода моделей машинного обучения (Kubernetes, Airflow, Jenkins) для обработки потоковых данных. Обсудим предпосылки и особенности единого подхода к CI/CD как потоковых так бачевых кейсоов. Покажем архитектуру решения и код. Различные типы деплоя потоковых моделей. Интеграция со Spark Streaming. Топим за простоту и эффективность.
    Евгений Лопаткин, Data Engeneer, Tele2
    Инфраструктура Mail.Ru Group
    Максим Карпенко, руководитель группы дискриптивной аналитики, Mail.Ru Group
    Кейс от QuantumBlack
    Спикер уточняется
  • 18:00 – 18:30
    Стратегия развития рынка Больших данных
    Выявленные тренды, актуальные потребности рынка и действия, направленные на развитие рынка
    Спикер: Алексей Нейман
    Исполнительный директор, Ассоциация Больших данных
  • 18:30 – 19:30
    Искусственный интеллект и государство
    Потенциал развития AI в России и меры государственной поддержки
    Андрей Силинг, исполнительный директор, Платформа НТИ
    Электронное правительство и искусственный интеллект
    Алексей Трачук, генеральный директор, РТ Лабс
    Возможности комплекса геоинформационных сервисов «Цифровая Земля» на основе технологий искусственного интеллекта для совершенствования контрольно-надзорной деятельности
    Предприятиями в контуре Госкорпорации «Роскосмос» разработан комплекс информационных отраслевых сервисов «Цифровая Земля – сервисы», функционирующих на основе данных дистанционного зондирования Земли (ДЗЗ) из космоса. В продукте в модулях изделий комплекса использованы методы искусственного интеллекта, современные алгоритмы машинного обучения, базирующиеся на свёрточных нейронных сетях. Для обучения нейросети была собрана база данных эталонов, основанная на материалах отечественной и зарубежной космической съемки. Обработка выполняется при помощи сегментации изображений с использованием свёрточных нейронных сетей с последующей векторизацией растра. Это существенно уменьшает трудовые и временные затраты на обработку снимков, позволяет идентифицировать и классифицировать различные изменения на местности, вовремя уведомлять пользователей о критичных изменениях или событиях на объектах мониторинга. В комплекс «Цифровая Земля – сервисы» входят следующие решения: «Лес-контроль», «Эко-мониторинг», «Карьеры», «Строй-контроль», «Сельхоз-мониторинг», «Чрезвычайные ситуации», «Нарушенные земли».
    Милана Элердова, генеральный директор, «Терра Тех»

 Завершение первого дня конференции
Python Stage
  • 09:30 – 10:00
    Keynote speaker
  • 10:00 – 11:00
    Keynote speaker
  • 11:00 – 11:40
    Keynote speaker
  • 11:40 – 13:00
    Машины видят все. Компьютерное зрение и Data Fusion
    Компьютерное зрение уже сейчас повседневная реальность: системы и алгоритмы штрафуют нас за нарушение скорости и разметки, определяют разговор по телефону за рулем и не пристёгнутый ремень.
    Проникая во многие отрасли, они распознают наши лица и знают наши повадки: дают возможность оплатить покупки и получить деньги, видя лишь наши лица, знают наши объекты интереса и наши маршруты в торговых центрах, следят за нашей безопасностью в общественных местах, лучше врачей определяют заболевания на снимках, лучше технологов ищут брак и поломки на производстве, помогают бороться за урожай и против исчезновения лесов, готовы сесть за рули и штурвалы, вместо водителей.
    Предел ли это возможностей, или мы только в начале пути? Какие перспективы видят и какие сложности встречают разработчики систем компьютерного зрения? Какую выгоду получает бизнес от таких решений? Не страдает ли при этом наша приватность и наша безопасность? Обсудим на сессии Компьютерное зрение и Data Fusion.
    Модератор: Олег Мангутов
    Директор центра дата аналитики и моделирования, E&Y
  • 17:00 – 17:50
    Keynote speaker
    Евгений Бурнаев, доцент Центра Сколтеха по научным и инженерным вычислительным технологиям для задач с большими массивами данных, канд. физ.-мат. Наук
  • 13:40 – 15:00
    NLP
    Модератор: Михаил Бурцев
    Руководитель проекта, DeepPavlov
    Тема уточняется
    Михаил Бурцев, руководитель проекта, DeepPavlov
    Решение по мониторингу трендов
    Павел Красовский, заместитель директора, Центр стратегических инноваций, Ростелеком
    Тема уточняется
    Ирина Пионтковская, Team Leader of Speech & Semantics, Huawei
  • 13:00 – 13:40
    Keynote speaker
  • 15:40 – 17:00
    Системный подход и обучение data science
    Современное образование, особенно в таких (относительно) новых специальностях, как data science и data fusion, не перестает вызывать острые споры среди экспертов. Каковы цели школьного и университетского образования? Чем они отличаются в Европе, США, России, Китае на данный момент? Что необходимо изменить в российской образовательной системе? Повлияет ли на образ результата цифровизация и если да, то как? Насколько существенно будет влиять цифровизация на методики обучения? В рамках сессии мы обсудим, какова роль единого стандарта в образовании, нужны ли нам единые школьные учебники и университетские программы; как контролировать качество и что должно быть основой оценки – живой экзамен или тесты и домашние задания; какую роль в образовательном процессе играют Mooc? Как обеспечить актуальность магистерских программ в связи с быстрым изменением технологий в data science? И какую роли в построении стройной образвательной системы играет партнерство государства и крупного бизнеса.
  • 15:00 – 15:40
    Keynote speaker
    Андрей Райгородский, Директор Физтех-школы прикладной математики и информатики, главный научный сотрудник - заведующий лабораторией продвинутой комбинаторики и сетевых приложений, заведующий лабораторией прикладных исследований МФТИ - Сбербанк, заведующий кафедрой дискретной математики ФИВТ, руководитель совместных исследовательских программ Яндекса и МФТИ, главный редактор журнала Moscow Journal of Combinatorics and Number Theory, доктор физико-математических наук, федеральный профессор математики.
  • 17:50 – 19:20
    Графовая аналитика
    Автоматизированный поиск мошеннических схем в графовой базе данных для модельного мультиграфа рынка межбанковского кредитования
    Андрей Леонидов, д.ф.-м.н. и преподаватель кафедры дискретной математики, МФТИ
    Формирование признаков на эмбедингах звонкового графа
    Сергей Паршуков, Senior DS R&D @Tele2
    Boost then Convolve: Gradient Boosting Meets Graph Neural Networks
    Графовые нейронные сети (GNN) - это мощные модели, успешно решающие различные задачи обучения графического представления. В тоже время градиентный бустинг на деревьях (GBDT) часто превосходит другие методы машинного обучения при работе с табличными данными. Но какой подход следует использовать для графов с табличными характеристиками узлов? Предыдущие модели GNN в основном фокусировались на сетях с однородными разреженными фичами и, как мы покажем, неоптимальны в гетерогенном пространстве. В этой работе мы предлагаем новую архитектуру, которая обучает GBDT и GNN совместно, чтобы получить лучшее из обоих миров: модель GBDT имеет дело с гетерогенными фичами, а GNN учитывает структуру графа. Наша модель выигрывает от сквозной оптимизации, позволяя новым деревьям соответствовать обновлениям градиента GNN. Проведя обширное экспериментальное сравнение с ведущими моделями GBDT и GNN, мы демонстрируем значительное улучшение производительности на различных графах с табличными фичами.
    Сергей Иванов, Ph.D., Research Scientist, Criteo
  • 19:20 – 20:00
    Keynote speaker
    Руслан Салахутдинов, профессор департамента машинного обучения Школы компьютерных наук Университета Карнеги - Меллона, ex-директор по исследованиям искусственного интеллекта в корпорации Apple Inc
Anaconda Stage
  • 11:40 – 13:00
    Классификация данных
    Применение Uplift моделирования в задачах целевого маркетинга
    Сергей Чигин, Senior DS, @Tele2
    Тема уточняется
    Павел Мягких, Big Data & Advanced Analytics Director @Lenta
  • 13:40 – 15:00
    Временные ряды в экономике
    Модель связи временных рядов и текстовой информации
    Алексей Рябых, директор управления перспективных алгоритмов машинного обучения, ВТБ
    Мониторинг цен онлайн для прогнозирования инфляции
    Александр Исаков, начальник отдела Research, ВТБ Капитал
    Россети и Mail.Ru Group. Under pressure
    Госкорпорации активно разрабатывают стратегии цифровизации и трансформируются под давлением новых рыночных условий. ПАО «Россети» придерживается тренда и внедряет в свою операционную деятельность цифровые технологии. Мы рассмотрим новый программный комплекс для поиска безучетного потребления электроэнергии, созданный командой PREDICT Mail.ru Group при поддержке экспертов Россетей, ставший одним из базовых проектов по цифровизации компании. Расскажем про архитектуру продукта и его базовый функционал, модели машинного обучения, базирующиеся на анализе временных рядов показаний приборов учета электроэнергии и геоданных, про результаты опытно-промышленной эксплуатации.
    Александр Мамаев, руководитель группы анализа данных в проекте «Predict», Mail.Ru Group
    Тема уточняется
    Rodrigo Rivera Castro, Machine Learning Advisor, Alibaba; PhD in Computational and Data Science and Engineering, Skoltech
  • 15:40 – 17:00
    Разбор решений финалистов Data Fusion Contest
    Разбор решений финалистов
    Два месяца более 600 команд будут работать c уникальным, специально сформированном для соревнования, датасетом. Перед участниками стоит две задачи: создать уникальный классификатор клиентских сервисов банка, который поможет персонифицировать коммуникации с клиентами; и определить бренд товара из названия продукта с помощью актуальных NLP-методов. Мы рассмотрим лучшие решения и обсудим все нюансы задач.
  • 17:50 – 19:20
    ML & security
    Кейс ЕБС от Ростелекома
    Иван Беров, директор по цифровой идентичности, Ростелеком
    Обучение AI моделей с помощью технологии MPC
    Дмитрий Берестнев, управляющий директор, департамент анализа данных и моделирования, ВТБ
    Конфиденциальные вычисления в задачах машинного обучения и не только. Как обмениваться данными, не обмениваясь ими
    Петр Емельянов, директор по R&D, Ubic
    Оценка эффективности методов машинного обучения для решения задач предотвращения мошенничества в системах электронных платежей
    Александра Баженова, аналитик-разработчк, НСПК
Организаторы
Партнеры
Стратегические
партнеры
интеллектуальные
партнеры
Технологический
партнер
Главный информационный
партнер
При поддержке