关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:015229人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

足协举行社会监督员一周年总结会,41名监督员参与监督238人次

直播吧 浏览 7829 07-24

"震荡"之后中美传来好消息 李成钢的表态意味深长

中国新闻周刊 浏览 289 10-28

男子花4万为父母升头等舱 手机遗失被安全员占为己有

鲁中晨报 浏览 317 10-13

最强风力15级台风过境三亚:不少住户阳台门窗被吹掉

大风新闻 浏览 552 08-26

桂林银行网点开到居民家里?

财经众议院 浏览 157 02-24

队报:马赛后卫梅迪纳脚踝受伤,将缺席至9月上旬

直播吧 浏览 410 08-22

以媒:以色列宣布关闭领空

环球网 浏览 6676 06-13

车长突破5.1米 全新问界M7全面靠拢M8/M9

网易汽车 浏览 2778 07-29

罕见!同一天,3架波音新飞机飞往中国

每日经济新闻 浏览 2445 07-16

中国电动汽车投资格局生变,海外超国内

盖世汽车 浏览 468 08-23

刘锋:银行 ESG 信披的估值影响——从合规到价值创造的转型之路

首席经济学家论坛 浏览 2952 08-14

从百亿到两百亿:董宇辉2025年做对了什么?

字母榜 浏览 228 01-09

数字蚂力周芸:客服是电商下一个增长入口

36氪 浏览 505 08-20

也算是开眼了!英国新能源车起不来,媒体将责任“划”给了小偷

小李车评李建红 浏览 281 10-23

38岁的陈晓让整个娱乐圈“沉默”了?

包饺子ai剪辑 浏览 216 11-27

张曼玉的平价穿搭火遍全网,60岁依然是大家最爱的穿衣榜样

黎贝卡的异想世界 浏览 485 08-15

日首相官邸官员表示:日本应该拥有核武器

澎湃新闻 浏览 235 12-19

英国F-35战机因故障滞留印度 不料成“形象大使”了

环球网资讯 浏览 2344 07-05

媒体:欧盟"外长"妄议九三阅兵 话说得比特朗普还过分

新民周刊 浏览 492 09-07

宁波银行贷存比升至86%:长三角信贷扩张的韧性从何而来

BT财经 浏览 58 04-29

朱梓予3-1简彤娟晋级资格赛32强!后三局全程胶着,关键暂停立功

篮球资讯达人 浏览 373 09-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11