关闭广告

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

爆角追踪2025-07-14 12:00:014992人阅读

Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。

这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”（验证函数）带来的杠杆效应——你只需要告诉模型结果好坏，它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧，说明 RL 可能不是 AI 智能进化的全部答案：

1. 长任务的局限性（渐进问题）：

当任务变得很长（比如需要几分钟甚至几小时的交互），RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

特朗普被指曾问泽连斯基：乌用美武器能否打击莫斯科

环球网资讯浏览 4114 07-16

伊姐周日热推：电视剧《凤凰台上》；电视剧《亲爱的X》......

伊周潮流浏览 37 11-17

菲律宾总统府附近发生骚乱 49名示威者被捕

环球网资讯浏览 171 09-23

欧洲焦虑：若中国稀土供应中断欧元区将面临双重威胁

澎湃新闻浏览 154 09-25

西班牙一架＂台风＂战斗机遭鸟击座舱盖破碎

环球网资讯浏览 1358 07-20

方圆X阿爆，爆款连出一个月，她们凭什么？

时尚COSMO 浏览 136 10-01

中国驻墨西哥使馆：美方的阻挠终将徒劳无功

政知新媒体浏览 182 10-01

刘学义，不是不红，而是运气太差了

温柔娱公子浏览 3176 07-15

乌外长：美已邀乌再赴美继续和平谈判

上观新闻浏览 15 12-04

马切吉亚尼：迈尼昂扑点的秘诀是米兰的门将教练菲利皮

懂球帝浏览 59 11-04

空间表现出色/8月下旬预售极狐T1内饰官图曝光

网易汽车浏览 1009 08-05

曝保时捷正在重新设计718 EV跑车，“反向”适配燃油动力

IT之家浏览 6 12-15

眼看选情不利，特朗普“喊话”中国，另有算盘

浏览 3279 07-14

九三阅兵训练高清图来了

央视新闻浏览 241 08-21

连锁药房老板忙活一年净亏2000多万元：亏得没办法了

每日经济新闻浏览 204 09-05

永远的20号！安菲尔德附近若塔壁画已完工，画中若塔做比心手势

直播吧浏览 1180 08-07

＂苦情＂首相白了头柬埔寨首相洪玛奈的夫人走向台前

现代快报浏览 262 09-01

【进博时刻】每天训它几百遍，这份枯燥的工作并非冷冰冰

上观新闻浏览 54 11-06

什么信号？又要征税了！

米筐投资浏览 293 08-11

香港法院作历史性判决许家印家族信托＂防火墙＂被击穿

经理人杂志浏览 151 10-09

青海隐形首富北京豪宅被1520万拍下物业费已拖欠45万

极目新闻浏览 8977 07-11

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

加密货币突然...

14分钟快充...

＂特普会＂太...

不只是换块牌...

蒙特雷3-1...

她被骂“文盲...

华为计划2027年实现城区L4规模商用

吉利星愿销量大爆发，宁德时代急调12条产线加码

江苏吴中敲响退市警钟，爱美客会否夺回“童颜针”生意？

特朗普被指曾问泽连斯基：乌用美武器能否打击莫斯科

伊姐周日热推：电视剧《凤凰台上》；电视剧《亲爱的X》......

菲律宾总统府附近发生骚乱 49名示威者被捕

欧洲焦虑：若中国稀土供应中断欧元区将面临双重威胁

西班牙一架＂台风＂战斗机遭鸟击座舱盖破碎

方圆X阿爆，爆款连出一个月，她们凭什么？

中国驻墨西哥使馆：美方的阻挠终将徒劳无功

刘学义，不是不红，而是运气太差了

乌外长：美已邀乌再赴美继续和平谈判

马切吉亚尼：迈尼昂扑点的秘诀是米兰的门将教练菲利皮

空间表现出色/8月下旬预售极狐T1内饰官图曝光

曝保时捷正在重新设计718 EV跑车，“反向”适配燃油动力

眼看选情不利，特朗普“喊话”中国，另有算盘

九三阅兵训练高清图来了

连锁药房老板忙活一年净亏2000多万元：亏得没办法了

永远的20号！安菲尔德附近若塔壁画已完工，画中若塔做比心手势

＂苦情＂首相白了头柬埔寨首相洪玛奈的夫人走向台前

【进博时刻】每天训它几百遍，这份枯燥的工作并非冷冰冰

什么信号？又要征税了！

香港法院作历史性判决许家印家族信托＂防火墙＂被击穿

青海隐形首富北京豪宅被1520万拍下物业费已拖欠45万

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

加密货币突然...

14分钟快充...

＂特普会＂太...

不只是换块牌...

蒙特雷3-1...

她被骂“文盲...

华为计划2027年实现城区L4规模商用

吉利星愿销量大爆发，宁德时代急调12条产线加码

江苏吴中敲响退市警钟，爱美客会否夺回“童颜针”生意？

特朗普被指曾问泽连斯基：乌用美武器能否打击莫斯科

伊姐周日热推：电视剧《凤凰台上》；电视剧《亲爱的X》......

菲律宾总统府附近发生骚乱 49名示威者被捕

欧洲焦虑：若中国稀土供应中断 欧元区将面临双重威胁

西班牙一架＂台风＂战斗机遭鸟击 座舱盖破碎

方圆X阿爆，爆款连出一个月，她们凭什么？

中国驻墨西哥使馆：美方的阻挠终将徒劳无功

刘学义，不是不红，而是运气太差了

乌外长：美已邀乌再赴美继续和平谈判

马切吉亚尼：迈尼昂扑点的秘诀是米兰的门将教练菲利皮

空间表现出色/8月下旬预售 极狐T1内饰官图曝光

曝保时捷正在重新设计718 EV跑车，“反向”适配燃油动力

眼看选情不利，特朗普“喊话”中国，另有算盘

九三阅兵训练高清图来了

连锁药房老板忙活一年净亏2000多万元：亏得没办法了

永远的20号！安菲尔德附近若塔壁画已完工，画中若塔做比心手势

＂苦情＂首相白了头 柬埔寨首相洪玛奈的夫人走向台前

【进博时刻】每天训它几百遍，这份枯燥的工作并非冷冰冰

什么信号？又要征税了！

香港法院作历史性判决 许家印家族信托＂防火墙＂被击穿

青海隐形首富北京豪宅被1520万拍下 物业费已拖欠45万

欧洲焦虑：若中国稀土供应中断欧元区将面临双重威胁

西班牙一架＂台风＂战斗机遭鸟击座舱盖破碎

空间表现出色/8月下旬预售极狐T1内饰官图曝光

＂苦情＂首相白了头柬埔寨首相洪玛奈的夫人走向台前

香港法院作历史性判决许家印家族信托＂防火墙＂被击穿

青海隐形首富北京豪宅被1520万拍下物业费已拖欠45万