关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:014995人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

乌克兰组建与俄谈判代表团

界面新闻 浏览 583 07-23

教育资源,有了公平分配的机会!

米筐投资 浏览 276 08-19

44岁阿娇现状:独居北京,直言想要孩子有点难

置身事内 浏览 7278 07-25

高中现"学霸寝室天花板":4人清华北大1人交大1人浙大

环球网资讯 浏览 3071 07-26

祝好!前国米女足队长、大巴雷西女儿社媒宣布要动心脏射频消融术

直播吧 浏览 3541 08-07

李小璐:年轻的举动,如今让自己的女儿买了单?

东方不败然多多 浏览 7149 07-28

维尼修斯迎来25岁生日!皇马队友姆巴佩社媒晒合照送上祝福

直播吧 浏览 9594 07-13

成龙与贾冰

电影最TOP 浏览 258 08-18

茅台告别“躺赢”?系列酒、经销商增速放缓,张德芹推消费者为王

征探财经 浏览 6603 08-14

农妇在荒塘内开挖养鱼被控"非法占用农地罪" 家属发声

极目新闻 浏览 136 10-15

多纳鲁马交易有变?被曼城球迷喷是骗子,罗马诺回应:爱信不信

直播吧 浏览 262 08-26

《长安的荔枝》止步8亿,《煎饼侠》欠10年的债,大鹏没还完?​

靠谱电影君 浏览 4540 08-03

现场看月球正背面样品!“中国探月工程20年”展览亮相世博会博物馆

上观新闻 浏览 758 07-16

又一位长期从事 Linux 工作的工程师从英特尔离职

IT之家 浏览 2270 07-14

东风集团将退市 岚图汽车将独立上市

网易汽车 浏览 249 08-24

越南再爆地产大雷,股市重挫5%,创六个月来最大单日跌幅

华尔街见闻官方 浏览 101 10-21

新势力不再只是 “蔚小理”,“BIG 6+1” 挑战比亚迪

晚点LatePost 浏览 144 10-02

年薪超百万,京东开始挖汽车人!

电动知家 浏览 105 10-17

梦幻联动克洛普晒与前NBA球星诺维茨基和纳什打笼式网球照片

直播吧 浏览 5499 07-30

19人徒步被困河南辉县南太行山悬崖 1人突发疾病遇难

红星新闻 浏览 91 10-26

上海七旬阿婆将二室一厅堆成垃圾山 臭气熏天老鼠乱窜

极目新闻 浏览 2252 07-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11