全国服务电话:024-23251177
您的位置:首页 > 学术科研 >探微计划:数据科学与统计学专题:“横行赌场” 基于统计分析原理的不确定性过程决策分析,以如何利用算法在“多臂老虎机”游戏中取胜为例 【大学组】

探微计划:数据科学与统计学专题:“横行赌场” 基于统计分析原理的不确定性过程决策分析,以如何利用算法在“多臂老虎机”游戏中取胜为例 【大学组】

阅读 405
2024-11-01

  开始日期: 2025-02-22

  课时安排: 7周在线小组科研学习+5周不限时论文指导学习

  适合人群

  适合年级 (Grade): 大学生及以上

  适合专业 (Major): 人工智能、数据科学、统计学等专业学生

  学生需要具备微积分、概率论与数理统计基础,同时会使用Python编程语言

  建议选修: Python数据处理及其数学原理

  导师介绍

  Osman

  卡内基梅隆大学 (CMU)终身正教授

Osman

  Osman导师现任是卡内基梅隆大学(CMU)计算机科学学院的终身正教授。此前他是CMU CyLab的博士后研究员。2011年秋季,他还在亚利桑那州立大学担任访问博士后学者。导师于2011年获得马里兰大学(University of Maryland at College Park, MD)的电气和计算机工程博士学位。导师的研究重点是计算系统的建模、分析和性能优化,并使用应用概率、网络科学、数据科学和机器学习的工具。在数据科学和机器学习的背景下,他正在研究使用顺序样本(例如,多臂机器人)的统计推断和决策,以及弹性分布式机器学习。在网络科学方面,他有广泛的兴趣,包括网络物理系统的健壮性,重点关注关键基础设施系统;安全可靠的大规模自组织网络设计,日益关注物联网的新兴应用;以及复杂网络中的传染过程,重点关注病毒、(错误)信息和意见传播的建模、分析和控制。导师是IEEE的高级成员,CIT院长早期职业奖学金获得者,IBM学术奖获得者,以及ICC 2021和IPSN 2022的最佳论文奖获得者。

  任职学校

  卡内基梅隆大学(CMU)始建于1900年,是世界范围内颇负盛名的私立研究型大学,拥有世界历史最悠久的计算机学院之一,位列CSRankings排名世界第一,U.S. News计算机本科及硕士项目与斯坦福大学,麻省理工学院,加州大学伯克利分校并列全美第一。“截至2019年3月,学校的教员和校友中共有20人获得诺贝尔奖,13人获得图灵奖,22人获评美国艺术与科学院院士,19人进入美国科学促进会,72人入选美国国家学院。卡内基梅隆大学是美国四大计算机名校之一,连续多年问鼎全球计算机专业排名第一。

  项目背景

  一个赌徒面前有N个赌博机,事先他不知道每台赌博机的真实盈利情况,他应该如何根据机器的操作结果做出反应,来使自身的收益最大化呢?——这个假设便是著名的“多臂强盗”问题的名字来源。实际上在机器学习被应用的领域当中,时时刻刻也都存在着这样的选择与决策情景:一个品牌针对其商品有着多款广告宣传,但不知道每一个用户对于每一种广告的接受程度;在投资中我们可能会面临多个项目,但并无法确认每个项目的具体回报率;亦或是在线零售商如何在不完全了解需求信息的背景下进行实时动态定价……

  项目介绍

  “多臂强盗”问题是概率论中的一个经典问题,亦是深度强化学习中的重要模块。人们针对解决此类不确定性序列决策问题,提出了“多臂强盗”算法框架(Multi-Armed Bandits,简称MAB,中文又译作“多臂老虎机”)。近年来这一算法框架因优异的性能和较少的反馈学习等优点,在推荐系统、信息检索到医疗保健和金融投资等诸多应用领域中受到了广泛关注。本课题正是以此框架为核心内容,学生将在参与的过程中深入了解算法的基础模型及应用,将认识到被广泛使用的上置信界算法(Upper Confidence Bound,简称UCB)及汤普森采样算法(Thompson Sampling Algorithms)。导师还将讲授自身在该领域的最新研究成果。

  项目大纲

  多臂老虎机问题的基础介绍 Introduction to Multi-armed Bandits

  随机多臂老虎机模型 Stochastic Multi-armed Bandits

  上置信界(UCB)算法 The Upper Confidence Bound (UCB) Algorithm

  贝叶斯强盗策略与汤普森采样算法 Bayesian Bandits and Thompson Sampling (TS)

  算法应用于实施,算法性能分析 Algorithm implementation, performance analysis

  多臂老虎机算法在推荐系统中的应用 Applications of Bandits in Recommendation Systems

  学术研讨1:教授与各组学生探讨并评估个性化研究课题可行性,帮助学生明晰后续科研思路 Final Project Preparation Session I

  学术研讨2:学生将在本周课前完成程序设计原型(prototype)及伪代码(Pseudocode),教授将根据各组进度进行个性化指导,确保学生优质的终期课题产出 Final Project Preparation Session II

  项目成果展示 Final Presentation

  论文指导 Project Deliverables Tutoring

  项目收获

  7周在线小组科研学习+5周不限时论文指导学习 共125课时

  项目报告

  优秀学员获主导师Reference Letter

  EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等级别索引国际会议全文投递与发表指导(可用于申请)

  结业证书

  成绩单

留学也是一种投资,你的留学预算充足吗,简单3步,轻松了解留学预算?

费用计算

版权及免责声明:
1、如转载本网原创文章,请务必注明出处:寰兴留学(www.huanxingedu.com);
2、本网转载媒体稿件、图片旨在传播更多有益信息,并不代表同意该观点,本网不承担稿件侵权行为的连带责任;如转载稿、图片涉及版权等问题,请作者在两周内速来电或来函联系,我们将立即删除。

全国统一服务热线
024-23251177
服务邮箱:ben@sas-ben.com
投诉邮箱:ben@sas-ben.com