关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:014912人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

霜降时节孩子应注意!

健康中国 浏览 5841 10-25

媒体:特朗普2.0亚洲"首秀" 重中之重还是与中国有关

上观新闻 浏览 17 10-27

舒淇现身亲揭《女孩》没报金马奖原因

ETtoday星光云 浏览 9 10-28

人类会被困在1nm吗?深度解析光刻机与芯片制程的未来

钛媒体APP 浏览 6002 08-13

海纳:现在不会透露科曼的未来,未来三周会继续看看转会市场动向

直播吧 浏览 239 08-11

何炅51岁无妻无子,且不再隐瞒身体状况了?

艳儿说电影 浏览 39 10-21

Nature重磅:AI又一突破!穿越千年,填补人类缺失的历史

学术头条 浏览 4315 07-24

琼斯社媒晒和队友东京逛街照:赫拉芬贝赫、弗林蓬、范迪克出镜

直播吧 浏览 6173 07-31

老板授意保安殴打他人致死一审被判无罪 检方提起抗诉

环球网资讯 浏览 1026 08-10

英超-曼城1-2遭布莱顿绝杀!39岁米尔纳破门 哈兰德建功

网易体育 浏览 145 09-01

乌称两中国公民试图走私导弹技术出境被拘留 中方回应

外交部网站 浏览 6621 07-11

聚焦具身智能 ,院士讲堂深圳人才公园开讲

南方都市报 浏览 220 08-20

夫妻工地干活时女儿从13楼坠亡索赔89万 法院判了

极目新闻 浏览 1558 08-09

罗体:尤文将和3名球员续约至2030年 伊尔迪兹年收入可达400万欧

直播吧 浏览 948 07-12

美联储褐皮书:经济活动略有增加 较此前改善

华尔街见闻官方 浏览 1635 07-17

梧桐科技发布TTi AI座舱升级方案 全面链接腾讯生态 量产车即将上市

经济观察报 浏览 106 09-21

全新别克 GL8 陆尊 MPV“紫气东来”配色公布

IT之家 浏览 7609 07-24

男子花费百万网购家里堆满上千个包裹 妻子发现后崩溃

环球网资讯 浏览 8404 08-04

特朗普或为中国制造三大机遇,中国如何利用?

浏览 6952 07-14

26岁张媛媛当选副镇长 4年前参加工作

环球网资讯 浏览 6718 07-28

“红到发紫”的家用SUV赛道,如今还能加点什么

网易汽车 浏览 4203 07-17
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11