关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:015228人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

尼斯和巴黎FC的比赛中看台响起恐同口号,导致比赛中断几分钟

懂球帝 浏览 364 09-29

“鼠头鸭脖”涉事公司拟注销 原因为决议解散

界面新闻 浏览 8964 07-02

全国基本养老保险参保人数达10.72亿人

新华社 浏览 319 09-26

世纪大和解?奥尼尔现场观战霍华德:我没有讨厌你只是激励你!

直播吧 浏览 508 08-19

「幻觉」竟是Karpathy十年前命名的?AI圈起名大师带火了多少概念

机器之心Pro 浏览 6435 07-29

定位6座大型SUV 吉利银河M9有望年内上市

车质网 浏览 423 06-11

西贝大降价罗永浩点的烤羊排低至99元 网友纷纷晒账单

每日经济新闻 浏览 431 10-02

马斯克,重夺全球首富宝座

华尔街见闻官方 浏览 392 09-11

乌克兰总统期待见特朗普谈“安全保障期限”

环球网资讯 浏览 227 01-09

受贿8451万 中国农业银行原副行长楼文龙一审被判无期

央视新闻客户端 浏览 509 08-26

朱媛媛离世5月后,辛柏青再传坏消息

乡野小珥 浏览 224 10-12

知情人:受胡雷资助女孩家有6个孩子 跟着爷爷奶奶生活

极目新闻 浏览 546 08-22

杭州龙井山偶遇周杰伦,一身休闲难掩酷劲

乡野小珥 浏览 118 04-10

董璇亲妈一句话,彻底撕下女儿的“完美伪装”

火之文 浏览 2160 08-14

3岁男孩跌入炭堆全身烧伤85%尚未脱险 家人发声

封面新闻 浏览 318 10-22

热巴近照好肿!状态变化被质疑生过娃,狗仔曾曝孩子属兔三岁了

萌神木木 浏览 39 05-06

俄乌冲突下的欧洲困境:制裁双刃剑

浏览 4529 07-14

张维伊与董璇结账吵架后公开亮相,面容憔悴

悠闲历史 浏览 7843 08-06

官方:申花U21和申花上体女足将参加七人制国际足球邀请赛

懂球帝 浏览 6155 07-25

"双普会"后 特朗普打一堆电话问怎么拿诺贝尔和平奖

南风窗 浏览 635 08-21

外卖大战降温,专家吁多管齐下破内卷

澎湃新闻 浏览 8187 08-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11