关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:014546人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普:以伊完全同意全面停火

央视新闻客户端 浏览 1686 06-24

村民打捞游客手机索要1500元未果又扔回水中 被拘7日

上观新闻 浏览 270 07-13

伊姐周六热推:电视剧《彼岸灯塔》;电视剧《潜渊》......

伊周潮流 浏览 3692 06-15

宗庆后不止4个孩子?宗庆后弟弟:假的

财经无忌 浏览 4573 07-18

曼联名宿:C罗2021年该去曼城,他们制造机会的水平比曼联强多了

直播吧 浏览 5409 07-24

中美博弈的本质:实体和虚拟经济的决战

睿知睿见 浏览 9167 07-13

俄罗斯告诫美国不要攻击伊朗

环球时报 浏览 6316 06-20

《扫毒风暴》演技评分:段奕宏秦昊断层差距,刘帅良评分太意外

娱乐圈笔娱君 浏览 6611 07-25

三星高管称欢迎苹果入局折叠手机市场

环球网资讯 浏览 7350 07-26

用毕业帽做一场非遗大秀

时尚COSMO 浏览 2817 06-11

经纪人:多纳鲁马转会国米没有进展;国米小将科基收到报价

懂球帝 浏览 997 07-15

金融制裁阴霾下 中俄贸易的坚韧!

浏览 404 07-14

TA:被“遗忘”的转会费,曼城和曼联错失未来收益最多

懂球帝 浏览 499 07-15

印度异想天开,万万没想到,中国早布天罗地网

浏览 9268 07-14

现在又流行穿黑丝了?纯欲又撩人,绝美!

Yuki女人故事 浏览 843 07-21

7月买车正当时?数十家车企发布优惠新政

车神探 浏览 9293 07-05

梦舟飞船零高度逃逸试验成功

环球网资讯 浏览 6797 06-18

迈阿密国际后卫法尔孔:若德保罗能加盟,会对我们有很大帮助

懂球帝 浏览 5572 07-14

中俄蜜月期结束?汽车出口暴跌49%!

象视汽车 浏览 4184 06-24

收钱安排戒毒人员担任戒毒骨干 湖北一戒毒所干部获刑

红星新闻 浏览 4284 07-11

王欣瑜因伤止步布拉格250赛四强,网友感慨:终于从委屈中解脱了

网球之家 浏览 860 07-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11