当前位置: 首 页 - 科学研究 - 学术报告 - 正文

bat365在线平台、所2024年系列学术活动(第050场):练恒 教授 香港城市大学

发表于: 2024-05-14   点击: 

报告题目:Kernel-based Decentralized Policy Evaluation for Reinforcement Learning

报 告 人: 练恒 教授 香港城市大学

报告时间:2024年5月23日 上午10:10-11:10

报告地点:腾讯会议 ID:336-320-506

或点击链接直接加入会议:https://meeting.tencent.com/dm/4zmgvRjJ5A1g

校内联系人:赵世舜 zhaoss@jlu.edu.cn


报告摘要:

We investigate the decentralized nonparametric policy evaluation problem within reinforcement learning, focusing on scenarios where multiple agents collaborate to learn the state-value function using sampled state transitions and privately observed rewards. Our approach centers on a regression-based multi-stage iteration technique employing infinite-dimensional gradient descent within a reproducing kernel Hilbert space (RKHS). To make computation and communication more feasible, we employ Nystrom approximation to project this space into a finite-dimensional one. We establish statistical error bounds to describe the convergence of value function estimation, marking the first instance of such analysis within a fully decentralized nonparametric framework. We compare the regression-based method to the kernel temporal difference (TD) method in some numerical studies.


报告人简介:

练恒,现任香港城市大学数学系教授,于2000年在中国科学技术大学获得数学和计算机学士学位,2007年在美国布朗大学获得计算机硕士,经济学硕士和应用数学博士学位。先后在新加坡南洋理工大学,澳大利亚新南威尔士大学,和香港城市大学工作。在高水平国际期刊上发表学术论文30多篇,包括《Annals of Statistics》《Journal of the Royal Statistical Society,Series B》、《Journal of the American Statistical Association》《Journal of Machine Learning Research》《IEEE Transactions on Pattern Analysis and Machine Intelligence》. 研究方向包括高维数据分析,函数数据分析,机器学习等。