关闭广告

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

爆角追踪2025-07-14 12:00:015231人阅读

Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。

这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”（验证函数）带来的杠杆效应——你只需要告诉模型结果好坏，它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧，说明 RL 可能不是 AI 智能进化的全部答案：

1. 长任务的局限性（渐进问题）：

当任务变得很长（比如需要几分钟甚至几小时的交互），RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

《以法之名》大结局又癫又糙，烂尾收官！

电和影浏览 5387 07-12

ChatGPT 为何退回了4o？

虎嗅APP 浏览 514 08-11

终于来了！山东签约新大外弥补内线隐患，但陈培东感冒将缺席一场

篮球资讯达人浏览 219 01-19

美的致富路，机器人暂未挑大梁

北京商报浏览 257 11-06

跟“雷尔法”一样豪华，再加个华为全家桶，卖35.99万元贵了吗？

吴佩频道浏览 586 05-29

扫清商业化最大障碍！OpenAI与微软启动新谈判

财联社浏览 4686 07-30

湖南一村里多栋民房受损被指因隔壁江西打井所致

极目新闻浏览 9048 07-05

苹果芯片不够用了

北京商报浏览 200 02-02

参加阅兵一级军士长受访:我们的受阅装备是打仗的装备

政知新媒体浏览 588 08-22

毒枭留下的80头河马被捕杀前获救亚洲富豪：我全要了

中国新闻周刊浏览 62 05-09

搭2.9T插混动力法拉利SC40官图发布

车质网浏览 302 10-20

小S暂无复出计划，制作人B2曝其近状，两人私下聊天内容曝光

扒虾侃娱浏览 3288 07-15

美记者称特朗普可能流放泽连斯基媒体：能流放到哪去

新民周刊浏览 9507 07-22

媒体：在21世纪20年代美国总统要向外派出＂总督大人＂

新民周刊浏览 222 01-06

一战再战、王家卫、郑智化风波、杨振宁逝世、白百何等

电影最TOP 浏览 192 11-10

伊朗外长：伊朗做好了应对一切可能的准备

环球网资讯浏览 240 01-14

太强了！大谷翔平赛季第40轰&连续3年达成，比上赛季提前12场！

直播吧浏览 3934 08-10

别让肠道问题偷走你的分数！专家奉上“护肠锦囊”

网易健康浏览 5223 05-29

遵义市市长黄伟任上被查：16岁考上大学几天前在参会

红星新闻浏览 233 02-04

韩红没等来一句道歉，如今连坐椅子都成了“错”

TVB的四小花浏览 365 09-26

万宁突然关闭内地线上线下全部门店，连锁巨头这是怎么了？

江瀚视野浏览 191 12-21

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

释永信10年...

900万打水...

日本大妈的穿...

“星链”网络...

海信CES发...

宇树科技王兴...

云南女子在安徽＂被结婚8年＂：并不认识冒用其身份女子

新款坦克400 4种动力+激光雷达纯电续航200公里

王一博风波升级！吐槽肖战等十几位明星

《以法之名》大结局又癫又糙，烂尾收官！

ChatGPT 为何退回了4o？

终于来了！山东签约新大外弥补内线隐患，但陈培东感冒将缺席一场

美的致富路，机器人暂未挑大梁

跟“雷尔法”一样豪华，再加个华为全家桶，卖35.99万元贵了吗？

扫清商业化最大障碍！OpenAI与微软启动新谈判

湖南一村里多栋民房受损被指因隔壁江西打井所致

苹果芯片不够用了

参加阅兵一级军士长受访:我们的受阅装备是打仗的装备

毒枭留下的80头河马被捕杀前获救亚洲富豪：我全要了

搭2.9T插混动力法拉利SC40官图发布

小S暂无复出计划，制作人B2曝其近状，两人私下聊天内容曝光

美记者称特朗普可能流放泽连斯基媒体：能流放到哪去

媒体：在21世纪20年代美国总统要向外派出＂总督大人＂

一战再战、王家卫、郑智化风波、杨振宁逝世、白百何等

伊朗外长：伊朗做好了应对一切可能的准备

太强了！大谷翔平赛季第40轰&连续3年达成，比上赛季提前12场！

别让肠道问题偷走你的分数！专家奉上“护肠锦囊”

遵义市市长黄伟任上被查：16岁考上大学几天前在参会

韩红没等来一句道歉，如今连坐椅子都成了“错”

万宁突然关闭内地线上线下全部门店，连锁巨头这是怎么了？

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

释永信10年...

900万打水...

日本大妈的穿...

“星链”网络...

海信CES发...

宇树科技王兴...

云南女子在安徽＂被结婚8年＂：并不认识冒用其身份女子

新款坦克400 4种动力+激光雷达 纯电续航200公里

王一博风波升级！吐槽肖战等十几位明星

《以法之名》大结局又癫又糙，烂尾收官！

ChatGPT 为何退回了4o？

终于来了！山东签约新大外弥补内线隐患，但陈培东感冒将缺席一场

美的致富路，机器人暂未挑大梁

跟“雷尔法”一样豪华，再加个华为全家桶，卖35.99万元贵了吗？

扫清商业化最大障碍！OpenAI与微软启动新谈判

湖南一村里多栋民房受损被指因隔壁江西打井所致

苹果芯片不够用了

参加阅兵一级军士长受访:我们的受阅装备是打仗的装备

毒枭留下的80头河马被捕杀前获救 亚洲富豪：我全要了

搭2.9T插混动力 法拉利SC40官图发布

小S暂无复出计划，制作人B2曝其近状，两人私下聊天内容曝光

美记者称特朗普可能流放泽连斯基 媒体：能流放到哪去

媒体：在21世纪20年代 美国总统要向外派出＂总督大人＂

一战再战、王家卫、郑智化风波、杨振宁逝世、白百何等

伊朗外长：伊朗做好了应对一切可能的准备

太强了！大谷翔平赛季第40轰&连续3年达成，比上赛季提前12场！

别让肠道问题偷走你的分数！专家奉上“护肠锦囊”

遵义市市长黄伟任上被查：16岁考上大学 几天前在参会

韩红没等来一句道歉，如今连坐椅子都成了“错”

万宁突然关闭内地线上线下全部门店，连锁巨头这是怎么了？

新款坦克400 4种动力+激光雷达纯电续航200公里

毒枭留下的80头河马被捕杀前获救亚洲富豪：我全要了

搭2.9T插混动力法拉利SC40官图发布

美记者称特朗普可能流放泽连斯基媒体：能流放到哪去

媒体：在21世纪20年代美国总统要向外派出＂总督大人＂

遵义市市长黄伟任上被查：16岁考上大学几天前在参会