小不点搜索 登录

强化学习理论基础 4.1 Bandit简介与遗憾分解引理 (Bandits, Regret Decomposition Lemma)

收藏  举报   
大家好,本视频是《强化学习理论基础》系列第四讲《Bandit问题》的第一部分《Bandit简介与遗憾分解引理》,主要讲解bandit简介、随机bandit(stochastic bandit)、遗憾(regret)、遗憾分解引理(regret decomposition lemma)的相关定义、推导、性质、证明。 本系列的板书、参考资料将分享在:https://github.com/ElSonidoDelViento/RLCourse(更新可能延迟) 如果发现视频中的纰漏、错误,欢迎反馈给我~ 强化学习理论基础 4.1 Bandit简介与遗憾分解引理 (Bandits, Regret Decomposition Lemma)
我来说两句