大家好,本视频是《强化学习理论基础》系列第四讲《Bandit问题》的第一部分《Bandit简介与遗憾分解引理》,主要讲解bandit简介、随机bandit(stochastic bandit)、遗憾(regret)、遗憾分解引理(regret decomposition lemma)的相关定义、推导、性质、证明。 本系列的板书、参考资料将分享在:https://github.com/ElSonidoDelViento/RLCourse(更新可能延迟) 如果发现视频中的纰漏、错误,欢迎反馈给我~ 强化学习理论基础 4.1 Bandit简介与遗憾分解引理 (Bandits, Regret Decomposition Lemma)
![](https://static.xiaoso.net/oss/png/3d44/12d5c2cccf82767f3d449c44c7855e9f.png?x-oss-process=style/avatar)
www.bilibili.com
我来说两句