Конференция
Data Fusion
30 марта — 31 марта
Всем зарегистрированным участникам будут доступны презентации спикеров конференции

Международная конференция Data Fusion посвящена синергии межотраслевых данных и качественно новым модельным подходам к их объединению.
Понимание реальных нужд клиента и эффективная коммуникация с соблюдением его личного пространства сегодня становятся сильным конкурентным преимуществом. На конференции ведущие игроки бизнеса и научного сообщества обсудят последние интересные DS решения, которые позволяют обеспечить новый уровень персонализации общения с клиентом.

Программа конференции
30 марта
Business Fusion
31 марта
ML Fusion
Kazan Stage
  • 14:00 – 14:10
    Открытие конференции. Приветственное слово
    Вадим Кулик, заместитель президента-председателя правления, ВТБ
    Аркадий Дворкович, Председатель, Фонд Сколково
  • 14:10 – 14:30
    Keynote speaker
    Вадим Кулик, Заместитель президента-председателя правления, ВТБ
  • 14:30 – 16:30
    Data Fusion и работа с клиентами
    Модератор: Сергей Голицын, вице-президент, заместитель руководитель департамента анализа данных и моделирования, ВТБ
    Обзор основных трендов Data Fusion в России и мире
    Законодательные ограничения обмена и использования данных, новые типы данных и перспективные технологии обмена данными.
    Светлана Сикуляр вице-президент по исследованиям, Gartner
    Новые шаги Банка ВТБ в области DataFusion
    Поговорим о том, как можно применять DataFusion в графовой аналитике, используя обезличенную геометрию графа и его раскраску. Благодаря данному подходу мы можем обогащать наши модели первичной информацией о взаимосвязях контрагентов, не нарушая законов о персональных данных. Расскажем о качественно новом продукте Банка – geo-embedings. Geo-embeddings это «полуфабрикаты» данных, которые содержат всю релевантную информацию для решения конкретной задачи в удобной векторной форме. Их применение позволяет достигать синергетического эффекта с заказчиками, которые развивают собственную компетенцию в области продвинутой аналитики.
    Денис Суржко, начальник управления перспективных алгоритмов машинного обучения, ВТБ
    Data Fusion в трансграничных перевозках
    Алексей Деревянкин, руководитель подразделения Data Science, Почта России
    Универсальные защищенные данные или как Embeddings помогают обезличивать данные без потери их выразительности
    Современные технологии машинного обучения позволяют создавать обезличенные векторные представления (Embedding) всех знаний о клиенте, так чтобы это было безопасно и не раскрывало реальных фактов о нем, но при этом полученные векторные представления были максимально «выразительны» для переиспользования в моделях машинного обучения. Рассмотрим наработки и поделимся собственным опытом в этой сфере.
    Дмитрий Берестнев, управляющий директор, Департамент анализа данных и моделирования, ВТБ, Chief Data Scientist, TData
    Геоаналитические продукты Tele2 для управления пассажиропотоком
    Деперсонализированные перемещения населения в совокупности с современными методами обработки больших данных позволяют контролировать потоки пассажиров на объектах транспортной инфраструктуры (аэропорты, авиакомпании, вокзалы, маршруты, дороги и т.д.). Выполнять прогнозы и регулировать трафик по направлениям, географии маршрутов, и типам транспорта. Продукты геоаналитики направлены на повышение доступности транспорта для населения, увеличению эффективности предприятий и развитию отрасли в целом. В основу разработки таких продуктов легли инновационные методы моделирования маршрутов и треков перемещения абонентов мобильной сети, разработанные в Tele2
    Константин Загуменнов, руководитель продуктов больших данных в госсекторе и Вадим Уваров, TechLead проектов по исследованию больших данных, Tele2
    Формула МультиКарты: machine learning + уберизация = инновационные решения для сервиса оборудования
    Мультикарта реализует несколько проектов, направленных на значительное преобразование существующей бизнес-модели оказания сервисных услуг для эквайрингового оборудования с использованием искусственного интеллекта, блокчейна и модели уберизации. Решение ряда поставленных задач требует использования подходов по слиянию данных из различных источников: датчиков работы оборудования, транзакционных данных, информации об остатках денежных средств и др.
    Кирилл Свириденко, генеральный директор, Мультикарта
  • 16:30 – 18:00
    Дискуссия «Правовые вопросы концепции Data Fusion»
    • Реальные бизнес-кейсы использования больших данных. Какие правовые проблемы при таком использовании возникают и как их преодолевают компании?
    • Вектор развития регулирования больших данных с учетом нового законодательства: по какому пути идет Россия и что важно для бизнеса
    • Этические вопросы использования больших данных

    Модератор: Виктор Наумов, управляющий партнер санкт-петербургского офиса, руководитель российской практики в области ИС, ИТ и телекоммуникаций и соруководитель европейской практики в области регулирования Интернета и технологий ИС, ИТ Dentons

    Участники дискуссии:
    Стивен Краун, вице-президент, заместитель директора по правовым вопросам, Microsoft
    Дмитрий Тер-Степанов, заместитель генерального директора, директор по направлению «Нормативное регулирование», АНО «Цифровая экономика»
    Александр Савельев, юрисконсульт, IBM, к.ю.н., доцент факультета права НИУ ВШЭ, заместитель председателя Комиссии по правовому обеспечению цифровой экономики Московского отделения Ассоциации юристов России
    Игорь Ашманов, кандидат технических наук, Президент АО «Крибрум», член Совета при Президенте РФ по развитию гражданского общества и правам человека.
    Олег Блинов, DPO, старший юрист компании Joom
    Александра Введенская, юрист PwC Россия IP, Technology and Data Protection
    Никита Данилов , Мегафон, АБД
  • 18:00 – 19:30
    Сквозное объединение данных
    При поддержке компании «Платформа Больших Данных»

    Ежедневно каждый человек оставляет за собой сотни цифровых следов: с каждым отправленным сообщением, заказанным товаром, оплаченной покупкой, полученной скидкой мы знаем больше о наших реальных и потенциальных клиентах. Теперь перед крупными корпорациями стоит лишь одна задача – «склеить» все эти активности и получить хорошо насыщенный цифровой профиль 360 градусов. Какой опыт есть у технологических компаний в решении этой задачи? Что может стать помощником, а что барьером? Какими средствами можно достичь наибольшего результата? Об этом мы поговорим на примере рекламного рынка с нашими спикерами: российскими технологическими платформами по управлению данными, крупнейшими рекламными группами и технологическими партнерами по использованию связок. Мы расскажем на конкретных примерах, как сегодня происходит склейка онлайн и оффлайн активностей и что нового это приносит бизнесу.

    Модератор: Алексей Каштанов, генеральный директор «Платформы Больших Данных»

    Участники дискуссии:
    Константин Леонович, исполнительный директор, «АмберДата»
    Глеб Никитин, генеральный директор, рекламное агентство «АдСнайпер»
    Михаил Шкляев, управляющий директор по трансформации бизнеса dentsu Russia
    Александр Папков, директор по технологиям, Media Direction Group, вице-президент и сопредседатель индустриального комитета по Big Data & Programmatic IAB Russia
    Константин Степанов, директор по ключевым проектам, HFLabs
    Алексей Уткин , управляющий директор, Synaps Labs
    Павел Плешков , Chief Executive Officer, Clever DATA
  • 19:30 – 20:15
    Keynote speaker
    The future of data science and machine learning: critical trends you can’t ignore
    Светлана Сикуляр вице-президент по исследованиям, Gartner
Virtual Stage
  • 14:30 – 15:30
    Fireside chat. Стратегия развития рынка Больших данных
    Выявленные тренды, актуальные потребности рынка и действия, направленные на развитие рынка
    Собеседники:
    Алексей Нейман, исполнительный директор, Ассоциация Больших данных
    Аркадий Сандлер, независимый эксперт
  • 15:30 – 17:25
    Фабрика искусственного интеллекта – предпосылки, практика, перспектива
    Модератор: Станислав Ашманов, генеральный директор, Наносемантика

    В этой сессии мы поговорим о том, как удовлетворить лавинообразный рост «аппетита» бизнеса к практическому применению искусственного интеллекта. Как влияет уровень зрелости бизнеса на успешное внедрение ИИ и какие вызовы стоят при переходе от точечных внедрений к системной ИИ трансформации.
    MLOps – конвейер разработки и внедрения для создания фабрики моделей
    Как переиспользовать лучшие практики организации ИТ конвейера разработки ПО в целях создания ИИ и не потерять фокус на Data Science?
    Мы рассмотрим путь от понимания особенностей разработки и жизненного цикла моделей до адаптации лучших практик DevOps применительно к системам ИИ. Мы увидим практический пример организации инфраструктуры для массовой промышленной In-House разработки систем ИИ. Мы попробуем ответить на вопрос: Зачем нужны адаптированные инструменты и процессы MLOps. Какие они дают преимущества и возможности по сравнению с стандартным CI/CD инструментарием DevOps? В каких случаях можно использовать CI/CD DevOps без изменений, а в каких без адаптации уже не обойтись. Как влияет конвейеризация разработки и внедрения моделей на работу Data Scientist’s, какие новые требования предъявляет.
    Юрий Карев, начальник Управления процессов и стандартов моделирования и машинного обучения, ВТБ
    Мифическая воспроизводимость в ML-разработке
    Инструменты для ML Ops практик бурно развиваются. Особое внимание в них уделяется проблемам воспроизводимости результата, как на этапе разработки, так и при последующей эксплуатации ML-сервиса. Мы расскажем про основные мифы вокруг современных систем, пытающихся решить эту проблему, а также про практические сценарии их использования. Мы погрузимся в проблему вопроизводимости при построении ML-решений и опишем нерешенные проблемы, которые остаются в этой области.
    Артем Трофимов, руководитель команды разработки Yandex DataSphere
    Комплексное решение для работы с ML-моделями: опыт Mail.ru Group
    Решение создано для использования ML-моделей в production режиме, что накладывает на него жесткие требования по SLA: система должна отвечать менее чем за 1 минуту и успевать просматривать актуальные данные. Одной из важных особенностей решения является универсальность применения моделей, что обеспечивается за счет хранения фичей на серверах и в "сыром" виде. В рамках доклада мы расскажем и о других особенностях решения, объеме хранимых фичей, а также о трех этапах процесса обработки запроса к системе.
    Максим Карпенко, руководитель группы дискриптивной аналитики, Mail.Ru Group
    Инструменты CI/CD для потокового ML
    Евгений Лопаткин, Data Engeneer, Tele2
    MPP подход в AutoML задачах
    В современном Data Science трудно получить конкурентное преимущество за счет самих моделей. Гораздо больший выигрыш приносят операционная эффективность их построения и своевременное реагирование на снижение их качества. Мы расскажем о том, как за счет синергии AutoML-подхода к построению моделей и MPP-подхода к их мониторингу можно не только быстро строить качественные модели, но и оперативно реагировать на снижения качества их предсказаний.
    Андрей Бедин, управляющий директор, управление перспективных алгоритмов машинного обучения, ВТБ
  • 17:30 – 19:30
    Искусственный интеллект, данные и государство
    Модератор: Алексей Сидорюк, директор по направлению «Искусственный интеллект», директор по развитию АНО «Цифровая экономика»
    ИИ и Data Fusion, применение в государстве и бизнесе. Кейсы, барьеры и перспективы
    Сергей Безбогов, Старший вице-президент, руководитель департамента управления и координации технологических изменений, ВТБ
    Применение ИИ в медицине. Кейсы, барьеры и перспективы
    Сергей Сорокин, генеральный директор, Botkin.AI
    Применение ИИ в образовании. Кейсы, барьеры и перспективы
    Александр Ларьяновский, управляющий партнер, Skyeng
    Применение ИИ в сельском хозяйстве. Кейсы, барьеры и перспективы
    Савва Шипов, заместитель генерального директора – директор по цифровой трансформации, «ОХК «Уралхим»
    Развитие биометрии в государстве и бизнесе. Кейсы, барьеры и перспективы
    Иван Беров, директор по цифровой идентичности, «Ростелеком»
    Потенциал развития AI в России и меры поддержки НТИ
    Андрей Силинг, исполнительный директор, Платформа НТИ
    Кейсы применения ИИ в Москве (транспорт, биометрия, здравоохранение, образование, регуляторные песочницы)
    Дмитрий Онтоев, начальник аналитического управления, ДИТ Москвы
    «Цифровая земля»: технологии AI для совершенствования контрольно-надзорной деятельности
    Милана Элердова, генеральный директор, «Терра Тех»
    Применение искусственного интеллекта в государственном управлении
    Александр Васильев, директор по работе с ключевыми заказчиками, «РТ Лабс»

 Завершение первого дня конференции
Kazan Stage
  • 09:50 – 10:00
    Keynote speaker
    Максим Коновалихин, руководитель департамента анализа данных и моделирования, старший вице-президент, ВТБ
  • 10:00 – 10:40
    Science notes
    Compositional AI: Fusion of AI/ML Services
    Enterprise adoption of AI/ML services has significantly accelerated in the last few years. However, the majority of ML models are still developed with the goal of solving a single task, e.g., prediction, classification. In this talk, Debmalya Biswas will present the emerging paradigm of Compositional AI, also known as, Compositional Learning. Compositional AI envisions seamless composition of existing AI/ML services, to provide a new (composite) AI/ML service, capable of addressing complex multi-domain use-cases. In an enterprise context, this enables reuse, agility, and efficiency in development and maintenance efforts.
    The talk will introduce Compositional AI, outline current state-of-the-art and challenges, and provide directions for future exploration to accelerate the enterprise readiness of Compositional AI.
    Debmalya Biswas, ex-Nokia, SAP, Oracle
  • 10:40 – 11:20
    Science notes
    Перспективы ансамблирования нейронных сетей
    Поговорим о том, почему это лучшая техника для оценки неопределенности в глубинном обучении и про степенные законы, которые позволяют прогнозировать точность большого ансамбля по малому и с помощью которых можно понять, что лучше - обучать одну большую сеть или ансамбль из нескольких сетей поменьше.
    Дмитрий Ветров, профессор-исследователь, НИУ ВШЭ
  • 11:20 – 12:40
    Машины видят все. Компьютерное зрение и Data Fusion

    Компьютерное зрение уже сейчас повседневная реальность: системы и алгоритмы штрафуют нас за нарушение скорости и разметки, определяют разговор по телефону за рулем и не пристёгнутый ремень.
    Проникая во многие отрасли, они распознают наши лица и знают наши повадки: дают возможность оплатить покупки и получить деньги, видя лишь наши лица, знают наши объекты интереса и наши маршруты в торговых центрах, следят за нашей безопасностью в общественных местах, лучше врачей определяют заболевания на снимках, лучше технологов ищут брак и поломки на производстве, помогают бороться за урожай и против исчезновения лесов, готовы сесть за рули и штурвалы, вместо водителей.
    Предел ли это возможностей, или мы только в начале пути? Какие перспективы видят и какие сложности встречают разработчики систем компьютерного зрения? Какую выгоду получает бизнес от таких решений? Не страдает ли при этом наша приватность и наша безопасность? Обсудим на сессии Компьютерное зрение и Data Fusion.

    Модератор:
    Александр Крайнов, Директор по развитию технологий искусственного интеллекта, Yandex
    Liveness. Защита от атак на систему с распознаванием лиц
    Александр Паркин, cтарший исследователь, VisionLabs
    Особенности проектирования системы видеонаблюдения под задачи видеоаналитики на основе нейронных сетей
    Дмитрий Шаралов, Эксперт по поддержке продаж с B2B
    Фактор формирования масштабного датасета в получении качественных моделей биометрической идентифицации
    Поговорим про общие принципы обучения моделей биометрической идентификации; обсудим возможности и ограничения в построении и расширении датасетов для биометрическогой идентификации и проблемы в сборе и подготовке больших биометрических датасетов.
    Кирилл Грошенков, ведущий разработчик по биометрии, Oz Forensics
    Использование технологий слияния данных в задачах распознавания производственных операций специалистов РЖД
    Ярослав Селиверстов, к.т.н., заведующий лаборатории искусственного интеллекта и нейронных сетей отраслевого центра разработок и внедрения, ОЦРВ (РЖД)
  • 12:45 – 13:25
    Science notes
    ML-renaissance of time-series forecasting
    Time-series forecasting is important for many business-oriented applications, including predictive maintenance, sales forecasting in the supply chain and retail, forecasting in Energy sector (demand, prices, renewable energy production), etc. However, existing methods suffer either from being simplistic and thus obtaining sub-optimal results or from being unfit to address modern problems such as time series with hierarchical dependencies and sparse data or from being inaccessible to a business user. In this talk we will review some main challenges in the field and discuss particular solutions, namely, for a problem of multidimensional time-series forecasting with external variables for scenario modeling, and for a problem of automatic generation of time-series features.
    Евгений Бурнаев, доцент Центра Сколтеха по научным и инженерным вычислительным технологиям для задач с большими массивами данных, канд. физ.-мат. наук
  • 13:30 – 15:20
    NLP
    Модератор: Александр Панченко, assistant professor for Natural Language Processing, Skoltech
    DeepPavlov: открытый фреймворк для сложных диалоговых систем
    Михаил Бурцев, руководитель проекта, DeepPavlov
    Применение искусственного интеллекта в стратегическом планировании и инновационном развитии компании
    Павел Красовский, заместитель директора, Центр стратегических инноваций, Ростелеком
    Финансовые рынки и технологии: анализ взаимосвязи через новостной поток
    Денис Суржко, начальник управления перспективных алгоритмов машинного обучения, ВТБ
    Zero-shot learning в NLP : решение новых задач без обучающих примеров
    Ирина Пионтковская, лидер московской команды Speech & Semantics, Huawei Noah’s Ark Lab
    Active Learning for Cheap and Fast Annotation of Text Corpora for Training Neural Network Models
    Артем Шелманов, Research Scientist, Skoltech
  • 15:20 – 16:00
    Science notes
    Искусственный интеллект против фейков и политики постправды: типология задач и подходов
    Константин Воронцов, российский учёный-математик, доктор физико-математических наук, профессор кафедры интеллектуальных систем ФУПМ МФТИ
  • 16:00 – 17:10
    Системный подход к обучению data science
    Модератор: Аркадий Сандлер независимый эксперт
    Современное образование, особенно в таких (относительно) новых специальностях, как data science и data fusion, не перестает вызывать острые споры среди экспертов. Каковы цели школьного и университетского образования? Чем они отличаются в Европе, США, России, Китае на данный момент? Что необходимо изменить в российской образовательной системе? Повлияет ли на образ результата цифровизация и если да, то как? Насколько существенно будет влиять цифровизация на методики обучения? В рамках сессии мы обсудим, какова роль единого стандарта в образовании, нужны ли нам единые школьные учебники и университетские программы; как контролировать качество и что должно быть основой оценки – живой экзамен или тесты и домашние задания; какую роль в образовательном процессе играют Mooc? Как обеспечить актуальность магистерских программ в связи с быстрым изменением технологий в data science? И какую роли в построении стройной образвательной системы играет партнерство государства и крупного бизнеса.
    Спикеры:
    Иван Ямщиков , директор по стратегии, Skillfactory
    Юрий Дорн , руководитель OzonMasters
    Участники дискуссии:
    Андрей Райгородский, директор Физтех-школы прикладной математики и информатики, заведующий кафедрой дискретной математики ФИВТ
    Нина Яныкина, ректор, Университет 20.35
    Иван Оселедец, доктор физико-математических наук, Skoltech
    Александр Мамаев , руководитель группы анализа данных в проекте «Predict», Mail.Ru Group
    Константин Воронцов, российский учёный-математик, доктор физико-математических наук, профессор кафедры интеллектуальных систем ФУПМ МФТИ
  • 17:15 – 17:55
    Science notes
    Андрей Райгородский, Директор Физтех-школы прикладной математики и информатики, главный научный сотрудник - заведующий лабораторией продвинутой комбинаторики и сетевых приложений, заведующий лабораторией прикладных исследований МФТИ - Сбербанк, заведующий кафедрой дискретной математики ФИВТ, руководитель совместных исследовательских программ Яндекса и МФТИ, главный редактор журнала Moscow Journal of Combinatorics and Number Theory, доктор физико-математических наук, федеральный профессор математики.
  • 18:00 – 19:10
    Графовая аналитика
    Модератор: Андрей Райгородский, доктор физико-математических наук, федеральный профессор математики, директор Физтех-школы прикладной математики и информатики
    Автоматизированный поиск мошеннических схем в графовой базе данных для модельного мультиграфа рынка межбанковского кредитования
    Андрей Леонидов, д.ф.-м.н. и преподаватель кафедры дискретной математики, МФТИ
    Boost then Convolve: Gradient Boosting Meets Graph Neural Networks
    Графовые нейронные сети (GNN) - это мощные модели, успешно решающие различные задачи обучения графического представления. В тоже время градиентный бустинг на деревьях (GBDT) часто превосходит другие методы машинного обучения при работе с табличными данными. Но какой подход следует использовать для графов с табличными характеристиками узлов? Предыдущие модели GNN в основном фокусировались на сетях с однородными разреженными фичами и, как мы покажем, неоптимальны в гетерогенном пространстве. В этой работе мы предлагаем новую архитектуру, которая обучает GBDT и GNN совместно, чтобы получить лучшее из обоих миров: модель GBDT имеет дело с гетерогенными фичами, а GNN учитывает структуру графа. Наша модель выигрывает от сквозной оптимизации, позволяя новым деревьям соответствовать обновлениям градиента GNN. Проведя обширное экспериментальное сравнение с ведущими моделями GBDT и GNN, мы демонстрируем значительное улучшение производительности на различных графах с табличными фичами.
    Сергей Иванов, Ph.D., research scientist, Criteo
    Использование транзакционной информации для решения задачи link prediction
    Артем Летин, начальник управления моделирования КИБ и СМБ, ВТБ
    Виталий Малыгин, директор, управление моделирования КИБ и СМБ, ВТБ
  • 19:10 – 19:30
    Церемония награждения победителей соревнования Data Fusion Awards
    Два месяца более 600 команд работали с уникальным, специально сформированном для соревнования, датасетом. Перед участниками стояло две задачи: создать уникальный классификатор клиентских сервисов банка, который поможет персонифицировать коммуникации с клиентами; и определить бренд товара из названия продукта с помощью актуальных NLP-методов.
    Призовой фонд соревнования - 2 000 000 рублей.
    Осталось узнать имена победителей.
  • 19:30 – 20:10
    Keynote speaker
    Incorporating Domain Learning into Deep Learning
    Руслан Салахутдинов, профессор департамента машинного обучения Школы компьютерных наук Университета Карнеги - Меллона, ex-директор по исследованиям искусственного интеллекта в корпорации Apple Inc.
Virtual Stage
  • 11:20 – 12:40
    Классификация данных и рекомендательные системы
    Модератор: Роман Доронин, СЕО, EORA
    Как скрестить аплифт деревья и reinforcement learning для получения самых достоверных рекомендаций
    Валерий Бабушкин, ML at WhatsApp Integrity, Facebook
    Тема уточняется
    Виктор Кантор, директор Центра Big Data
    Применение Uplift моделирования в задачах целевого маркетинга
    Uplift моделирование - один из типов задач машинного обучения, который встречается в целевом маркетинге. В данном докладе мы расскажем про методы построения uplift моделей, необходимые для оценки их качества метрики и результаты использования данного подхода на практике.
    Сергей Чигин, Senior DS, @Tele2
  • 13:30 – 15:20
    Временные ряды в экономике
    Модератор: Алексей Драль, CEO, BigData Team
    Секция посвящена вопросам применения машинного обучения в экономике, в первую очередь, в части моделирования процессов развивающихся во времени. Мы разберем конкретные экономические кейсы, нестандартные задачи применения текстовой аналитики для задач анализа и прогнозирования экономических временных рядов, новые перспективные источники данных для решения задач моделирования экономических процессов.
    Модели связи финансовых временных рядов и текстовых данных
    Современная финансовая индустрия использует с одной стороны большое количество различных временных рядов для описания экономических процессов: котировки акций, банковские резервы, рейтинги компаний и так далее, с другой стороны, быстрорастущее текстовое представление данных: новости, социальные сети, отчеты аналитиков. Мы рассмотрим принципы построения интерпретируемых и масштабируемых моделей, учитывающие обе упомянутые модальности данных, ответим на основной вопрос клиента о портфеле – «почему подешевела или подорожала та или иная акция?», а так же коснемся биржевых стратегий, учитывающих тональность и разнообразие новостного фона.
    Алексей Рябых , управляющий директор, Управление перспективных алгоритмов машинного обучения, ВТБ
    Онлайн скрейпинг: Новый источник данных по поребительским ценам
    Мы документируем новый источник микроданных о потребительских ценах. Новая база позволяет исследователям, изучающим поведение потребительских цен, получить доступ к оперативным и гранулярным данным на уровне первичных статистических наблюдений. Спектр наблюдаемых цен включает товары и услуги, полностью охватывает выборку индекса потребительских цен Росстата и выходит за ее пределы. В этой работе мы преследуем две цели. Во-первых, мы описываем механизм наблюдения, структуру данных, их доступность, демонстрируем четыре примера использования API для данных в прикладных задачах: обучение моделей машинной классификации текстовых названий, оперативный мониторинг цен класса товаров, построение гедонистических регрессий для товарных групп, расчет произвольных аналитических индексов цен. Во-вторых, в интересах исследователей, заинтересованных в создании собственных наборов альтернативных данных, мы делимся набором базовых навыков и технологий.
    Александр Исаков, главный экономист по России, ВТБ Капитал
    Постолит Егор, аналитик, ВТБ Капитал
    Россети и Mail.Ru Group. Under pressure
    Госкорпорации активно разрабатывают стратегии цифровизации и трансформируются под давлением новых рыночных условий. ПАО «Россети» придерживается тренда и внедряет в свою операционную деятельность цифровые технологии. Мы рассмотрим новый программный комплекс для поиска безучетного потребления электроэнергии, созданный командой PREDICT Mail.ru Group при поддержке экспертов Россетей, ставший одним из базовых проектов по цифровизации компании. Расскажем про архитектуру продукта и его базовый функционал, модели машинного обучения, базирующиеся на анализе временных рядов показаний приборов учета электроэнергии и геоданных, про результаты опытно-промышленной эксплуатации.
    Александр Мамаев, руководитель группы анализа данных в проекте «Predict», Mail.Ru Group
    From generalist to specialist: Making NeuralProphet the go-to library for finance
    NeuralProphet is a neural forecasting library and spiritual successor to the famous Facebook Prophet. Its focus is on interpretability and ease of use for the general user. However, this comes with tradeoffs. What would be necessary to adapt NeuralProphet for financial time series? In this talk, we discuss making NeuralProphet suitable for financial forecasting and what ideas the practitioner can take for her forecast practice.
    Rodrigo Rivera Castro, Machine Learning Advisor, Alibaba; PhD in Computational and Data Science and Engineering, Skoltech
    Использование данных ОФД для прогнозов в экономике
    ОФД получает в реальном времени данные о покупках по всей стране. Далее, эта информация проходит процедуру обезличивания и агрегации и может быть использована в аналитических сервисах. Так как каждый факт покупки строго привязан к определённому времени (с точностью до секунды), эти данные могут быть использованы для построения самых разных временных рядов. Глубокая детализация данных позволяет находить взаимосвязь между динамикой продаж определённых товаров, категорий продуктов, товарообороте различных типов бизнеса и макроэкономических показателей.
    Алексей Петрин, заместитель директора по развитию продукта, Первый ОФД
  • 16:00 – 17:10
    Разбор решений финалистов
    Два месяца более 600 команд будут работать c уникальным, специально сформированном для соревнования, датасетом. Перед участниками стоит две задачи: создать уникальный классификатор клиентских сервисов банка, который поможет персонифицировать коммуникации с клиентами; и определить бренд товара из названия продукта с помощью актуальных NLP-методов. Мы рассмотрим лучшие решения и обсудим все нюансы задач.
    Аналитика товарных наименований из чеков
    В рамках выступления мы расскажем про то, что из себя представляют фискальные данные физических лиц, какие сложности возникают при работе с ними и про то, как строили модели классификации товаров и извлечения брендов.
    Смирнов Тимофей, Глушенко Анатолий, Data Scientists, команда Внешние данные, департамент анализа данных и моделирования, ВТБ
  • 18:00 – 19:10
    ML & security
    Модератор: Георгий Шебулдаев, Руководитель департамента развития новых продуктов, «Лаборатория Касперского»
    Как ИИ распознает ИИ и другие фокусы liveness
    Наталья Бессонова, директор исследовательской лаборатории ЕБС, ПАО «Ростелеком»
    Протоколы совместных конфиденциальных вычислений или как компаниями обмениваться данными, не обмениваясь ими
    Специалисты из ВТБ и UBIC расскажут о том, почему словосочетания «синергия данных» и «проблемы конфиденциальности» часто встречаются в одном предложении. А еще о том, как такие проблемы можно предотвращать с помощью криптографии и математики. Протоколы совместных конфиденциальных вычислений: что это такое, как использовать, с какими препятствиями придется столкнуться, и какие перспективы открываются, если их преодолеть.
    Берестнев Дмитрий, управляющий директор, департамент анализа данных и моделирования, ВТБ, Chief Data Scientist, TData
    Емельянов Петр, директор по R&D, UBIC LLC
    Оценка эффективности методов машинного обучения для решения задач предотвращения мошенничества в системах электронных платежей
    Александра Баженова, аналитик-разработчки, НСПК
    ML на страже безопасности человека или человек на страже безопасности ML
    Вячеслав Закоржевский, Директор департамента поддержки продуктов и услуг, «Лаборатория Касперского»
Спикеры
FAQ
Обязательно ли регистрироваться на конференцию?
Да, только зарегистрированные пользователи получат записи сессий и материалы спикеров по окончании мероприятия.
Конференция будет проходить только в онлайн-формате?
Мы соблюдаем все ограничения, вызванные COVID, и сократили количество мест в зале. Тем не менее, у вас будет возможность посетить конференцию офлайн. Всем зарегистрированным посетителям придет рассылка с формой заявки на посещение.
Как зарегистрироваться?
Заполнить форму регистрации на сайте. После заполнения формы вам придет подтверждение, что регистрация прошла успешно. Всем зарегистрированным участникам мы отправим напоминание на электронную почту перед началом конференции, а также записи сессий после окончания Data Fusion.
Где можно ознакомиться с расписанием конференции?
Расписание можно посмотреть на сайте в разделе «Конференция».
Где и как смотреть трансляцию?
Трансляция откроется на сайте www.data-fusion.ru в разделе LIVE в день начала конференции.
Участники конференции получат напоминание о старте сессий?
Да, за несколько дней до начала мы напомним о мероприятии. Также отправим напоминания с расписанием сессий в начале каждого дня конференции.
Как задать вопрос спикеру?
Вопросы спикерам можно задать в разделе «Вопросы», который расположен под плеером трансляции. Чтобы отправить вопрос, участнику необходимо во всплывающем окне авторизоваться и ввести свое имя и фамилию.
Как общаться с участниками конференции?
Для общения с другими участниками конференции перейдите в раздел «Чат», который расположен под плеером трансляции. Чтобы отправить сообщение в чате, необходимо во всплывающем окне авторизоваться и ввести свое имя и фамилию.
Где можно ознакомиться с информацией о сессии?
Ознакомиться с ключевой информацией о сессии можно в разделе «Информация», который расположен под плеером трансляции. Там вы увидите описание сессии и список спикеров.
Есть ли возможность добавить мероприятие в личный календарь?
Да, в интерфейсе медиаплеера есть возможность добавлять мероприятие в свой календарь (Google, iCal, MS Outlook).
Будут ли доступны записи конференции после трансляции?
Да, у зарегистрированных пользователей будет возможность смотреть записи трансляций на сайте после мероприятия.
Будут ли доступны презентации спикеров конференции?
В случае согласия спикера, в разделе «Информация», который расположен под плеером трансляции, вы сможете скачать по ссылке презентации спикеров.
Будет ли синхронный перевод?
Нет, на конференции Data Fusion не будет синхронного перевода англоговорящих спикеров.
Если у меня вопрос, которого нет в FAQ?
Свяжитесь с организаторами мероприятия по почте datafusion@sk.ru, мы обязательно вам ответим.