[视频作者] 小林AI社区
[视频时长] 45:23
[视频类型] 计算机技术
将大型语言模型(LLM)与AlphaGo风格的深度强化学习相结合,一直是许多顶尖AI实验室的圣杯。随着o1(又称Strawberry)的推出,我们看到了迄今为止最广泛的两种模式的融合。尽管o1在写作方面不如数学能力强,但它已经在多个数学、编程和推理基准测试中达到了最新的SOTA(最先进技术)。 深度强化学习传奇人物、现OpenAI研究员Noam Brown,以及队友Ilge Akkaya和Hunter Lightman讨论了他们在o1发布过程中的一些关键时刻,o1如何使用思维链和回溯来解决问题,发现了强
![[图]【中英字幕】 10月2日,OpenAI的Noam Brown及其团队谈论了o1以及如何教大语言模型更好地推理|红杉|深度强化学习|2024.10.02](https://i0.hdslb.com/bfs/archive/b8a6d6da48bc1f32c4988158501d91230eb26ea2.jpg)