独家视频解读：【北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式】

www.bilibili.com

2024-10-10 22:14

[视频作者] 北大AI对齐小组

[视频时长] 62:57

[视频类型] 计算机技术

北京时间 9 月 13 日午夜，OpenAI 发布 o1 系列模型。OpenAI o1 在数学、代码、长程规划等问题上取得了显著提升，而背后的成功最重要离不开后训练阶段 (Post-Training Stage) 中强化学习训练。新的扩展律 —— 后训练扩展律（Post-Training Scaling Laws）已经出现，并可能引发社区对于算力分配、后训练能力的重新思考。独家视频解读：【北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式】https://mp.weixin.

[图]独家视频解读：【北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式】

回复编辑 ⇧顶 ⇩沉

影音视频访问链接

以下链接为影音视频“独家视频解读：【北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式】”在线访问地址，点击链接就可以访问查看啦

www.bilibili.com***719044

www.bilibili.com

说两句