[视频作者] 北大AI对齐小组
[视频时长] 62:57
[视频类型] 计算机技术
北京时间 9 月 13 日午夜,OpenAI 发布 o1 系列模型。OpenAI o1 在数学、 代码、长程规划等问题上取得了显著提升,而背后的成功最重要离不开后训练阶段 (Post-Training Stage) 中强化学习训练。新的扩展律 —— 后训练扩展律(Post-Training Scaling Laws) 已经出现,并可能引发社区对于算力分配、后训练能力的重新思考。 独家视频解读:【北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式】https://mp.weixin.