关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:014576人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

丰田该对特朗普说谢谢

虎嗅APP 浏览 1382 07-26

宗馥莉被3名自称同父异母弟妹起诉 娃哈哈回应

21世纪经济报道 浏览 1428 07-14

特朗普索要100亿美元驻韩军费 韩方:将遵守现有协定

界面新闻 浏览 4050 07-10

“豪车税”起征点断崖式下调 10万新税谁来扛

网易汽车 浏览 7632 07-23

14岁辍学女生签MCN 因"无法忍受"强行解约被起诉索赔

封面新闻 浏览 4685 07-28

银行理财2025年上半年前瞻!14家规模增超5000亿元,现金管理产品大缩水,权益配置有了新途径

券商中国 浏览 9527 07-12

2140万到期合同!美记:武切维奇一直没市场 或在新赛季中期买断

直播吧 浏览 10031 07-26

外媒公开画面:特朗普和鲁比奥先后登机 双双险些跌倒

环球网资讯 浏览 6214 06-09

农夫山泉,重上5000亿

21财闻汇 浏览 4701 07-29

27.99万起 上汽奥迪A5L Sportback开启预售

车质网 浏览 2307 07-03

新款Model S/X没新意?那就对了!

DearAuto 浏览 9521 06-24

华为 800V 高压七合一电机官方解说发布

IT之家 浏览 6723 07-24

31岁护士车上遭男友割喉 男方行凶后开1小时车才报警

环球网资讯 浏览 1650 07-14

生活越难,越需要“经济上行的美”

LinkFashion 浏览 7471 06-18

智能配置升级 吉利缤越超能Max版7.18万

网易汽车 浏览 2045 07-18

年赚1000亿的山姆神话,突然破灭!

功夫财经 浏览 1315 07-17

京东外卖取消“超时20分钟免单”服务,客服回应

浙江之声 浏览 3165 07-17

微软盘后涨超8%,下季度资本支出计划超300亿美元

第一财经资讯 浏览 7907 07-31

加拿大罗杰斯杯大师赛怎么就成为顶尖选手的鸡肋了呢?

网球之家 浏览 8715 07-25

重磅!人身险预定利率或将跌破2.25%,保险还值得买吗?

Daily每日财报 浏览 1158 07-24

经纪公司祝贺约克雷斯加盟阿森纳:为你骄傲,是时候冲击顶峰了

直播吧 浏览 9699 07-27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11