关闭广告

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

爆角追踪2025-07-14 12:00:015228人阅读

Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。

这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”（验证函数）带来的杠杆效应——你只需要告诉模型结果好坏，它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧，说明 RL 可能不是 AI 智能进化的全部答案：

1. 长任务的局限性（渐进问题）：

当任务变得很长（比如需要几分钟甚至几小时的交互），RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

尼斯和巴黎FC的比赛中看台响起恐同口号，导致比赛中断几分钟

懂球帝浏览 364 09-29

“鼠头鸭脖”涉事公司拟注销原因为决议解散

界面新闻浏览 8964 07-02

全国基本养老保险参保人数达10.72亿人

新华社浏览 319 09-26

世纪大和解？奥尼尔现场观战霍华德：我没有讨厌你只是激励你！

直播吧浏览 508 08-19

「幻觉」竟是Karpathy十年前命名的？AI圈起名大师带火了多少概念

机器之心Pro 浏览 6435 07-29

定位6座大型SUV 吉利银河M9有望年内上市

车质网浏览 423 06-11

西贝大降价罗永浩点的烤羊排低至99元网友纷纷晒账单

每日经济新闻浏览 431 10-02

马斯克，重夺全球首富宝座

华尔街见闻官方浏览 392 09-11

乌克兰总统期待见特朗普谈“安全保障期限”

环球网资讯浏览 227 01-09

受贿8451万中国农业银行原副行长楼文龙一审被判无期

央视新闻客户端浏览 509 08-26

朱媛媛离世5月后，辛柏青再传坏消息

乡野小珥浏览 224 10-12

知情人:受胡雷资助女孩家有6个孩子跟着爷爷奶奶生活

极目新闻浏览 546 08-22

杭州龙井山偶遇周杰伦，一身休闲难掩酷劲

乡野小珥浏览 118 04-10

董璇亲妈一句话，彻底撕下女儿的“完美伪装”

火之文浏览 2160 08-14

3岁男孩跌入炭堆全身烧伤85%尚未脱险家人发声

封面新闻浏览 318 10-22

热巴近照好肿！状态变化被质疑生过娃，狗仔曾曝孩子属兔三岁了

萌神木木浏览 39 05-06

俄乌冲突下的欧洲困境：制裁双刃剑

浏览 4529 07-14

张维伊与董璇结账吵架后公开亮相，面容憔悴

悠闲历史浏览 7843 08-06

官方：申花U21和申花上体女足将参加七人制国际足球邀请赛

懂球帝浏览 6155 07-25

＂双普会＂后特朗普打一堆电话问怎么拿诺贝尔和平奖

南风窗浏览 635 08-21

外卖大战降温，专家吁多管齐下破内卷

澎湃新闻浏览 8187 08-10

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

记者：曼城对...

股价创一年来...

印度航空发表...

“食安AI博...

挖机参与抗洪...

预计2026...

百度蒸汽机视频大模型7折价入局

最常见的3种皮肤外用药膏，便宜又好用，但很多人都在瞎涂

《寒战1994》票房大爆，四位演员被赞，演技才是真正的颜值滤镜

尼斯和巴黎FC的比赛中看台响起恐同口号，导致比赛中断几分钟

“鼠头鸭脖”涉事公司拟注销原因为决议解散

全国基本养老保险参保人数达10.72亿人

世纪大和解？奥尼尔现场观战霍华德：我没有讨厌你只是激励你！

「幻觉」竟是Karpathy十年前命名的？AI圈起名大师带火了多少概念

定位6座大型SUV 吉利银河M9有望年内上市

西贝大降价罗永浩点的烤羊排低至99元网友纷纷晒账单

马斯克，重夺全球首富宝座

乌克兰总统期待见特朗普谈“安全保障期限”

受贿8451万中国农业银行原副行长楼文龙一审被判无期

朱媛媛离世5月后，辛柏青再传坏消息

知情人:受胡雷资助女孩家有6个孩子跟着爷爷奶奶生活

杭州龙井山偶遇周杰伦，一身休闲难掩酷劲

董璇亲妈一句话，彻底撕下女儿的“完美伪装”

3岁男孩跌入炭堆全身烧伤85%尚未脱险家人发声

热巴近照好肿！状态变化被质疑生过娃，狗仔曾曝孩子属兔三岁了

俄乌冲突下的欧洲困境：制裁双刃剑

张维伊与董璇结账吵架后公开亮相，面容憔悴

官方：申花U21和申花上体女足将参加七人制国际足球邀请赛

＂双普会＂后特朗普打一堆电话问怎么拿诺贝尔和平奖

外卖大战降温，专家吁多管齐下破内卷

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

记者：曼城对...

股价创一年来...

印度航空发表...

“食安AI博...

挖机参与抗洪...

预计2026...

百度蒸汽机视频大模型7折价入局

最常见的3种皮肤外用药膏，便宜又好用，但很多人都在瞎涂

《寒战1994》票房大爆，四位演员被赞，演技才是真正的颜值滤镜

尼斯和巴黎FC的比赛中看台响起恐同口号，导致比赛中断几分钟

“鼠头鸭脖”涉事公司拟注销 原因为决议解散

全国基本养老保险参保人数达10.72亿人

世纪大和解？奥尼尔现场观战霍华德：我没有讨厌你只是激励你！

「幻觉」竟是Karpathy十年前命名的？AI圈起名大师带火了多少概念

定位6座大型SUV 吉利银河M9有望年内上市

西贝大降价罗永浩点的烤羊排低至99元 网友纷纷晒账单

马斯克，重夺全球首富宝座

乌克兰总统期待见特朗普谈“安全保障期限”

受贿8451万 中国农业银行原副行长楼文龙一审被判无期

朱媛媛离世5月后，辛柏青再传坏消息

知情人:受胡雷资助女孩家有6个孩子 跟着爷爷奶奶生活

杭州龙井山偶遇周杰伦，一身休闲难掩酷劲

董璇亲妈一句话，彻底撕下女儿的“完美伪装”

3岁男孩跌入炭堆全身烧伤85%尚未脱险 家人发声

热巴近照好肿！状态变化被质疑生过娃，狗仔曾曝孩子属兔三岁了

俄乌冲突下的欧洲困境：制裁双刃剑

张维伊与董璇结账吵架后公开亮相，面容憔悴

官方：申花U21和申花上体女足将参加七人制国际足球邀请赛

＂双普会＂后 特朗普打一堆电话问怎么拿诺贝尔和平奖

外卖大战降温，专家吁多管齐下破内卷

“鼠头鸭脖”涉事公司拟注销原因为决议解散

西贝大降价罗永浩点的烤羊排低至99元网友纷纷晒账单

受贿8451万中国农业银行原副行长楼文龙一审被判无期

知情人:受胡雷资助女孩家有6个孩子跟着爷爷奶奶生活

3岁男孩跌入炭堆全身烧伤85%尚未脱险家人发声

＂双普会＂后特朗普打一堆电话问怎么拿诺贝尔和平奖