Даниил Тяпкин

НИУ ВШЭ Научный сотрудник HDI Lab

Задача исследования в обучении с подкреплением

Обучение с подкреплением – это популярная парадигма машинного обучения, с которой связаны недавние успехи в Go, Starcraft, а также в обучении больших языковым моделей (Reinforcement Learning with Human Feedback) и поиск новых алгоритмов быстрого умножения матриц (AlphaTensor). В этой общей задаче наша задача – обучить некоторого агента взаимодействовать со средой, чтобы максимизировать получаемую награду. Поскольку процесс генерации обучающих данных напрямую связан с решениями агента, возникает “exploration-exploitation” дилемма: агенту нужно одновременно исследовать среду, чтобы иметь достаточно разнообразные обучающие данные, и с другой стороны, ему нужно найти алгоритм действий который максимизирует награду, основываясь на текущих данных. В выступлении пойдет речь о практических и теоретических подходах к решению данной важной дилеммы.

Сотрудник Международной лаборатории стохастических алгоритмов и анализа многомерных данных НИУ ВШЭ (HDI Lab), преподаватель математической статистики и матричных, а также автор курса по математическим основам обучения с подкреплением в НИУ ВШЭ. В текущий момент, магистрант 2-го года магистратуры "Математика машинного обучения" НИУ ВШЭ и Сколтеха, автор многих научных публикаций на таких конференциях, как ICML, NeurIPS и AISTATS. Научные интересы: математические аспекты обучения с подкреплением, в частности, задача исследования среды, стохастическая оптимизация.