参考指南

这项由香港大学、加州大学伯克利分校以及谷歌DeepMind等顶尖机构联合进行的研究发表于2025年第42届国际机器学习大会(ICML)，研究团队由朱天哲、翟越翔等多位学者共同完成。有兴趣深入了解的读者可以通过项目主页https://tianzhechu.com/SFTvsRL获取完整论文信息。

想象你面前有两个孩子在学数学，一个死记硬背乘法表，考试时只要题目稍有变化就抓瞎；另一个真正理解了乘法原理，遇到新题型也能触类旁通。这就是当前AI训练中的一个根本性问题——我们的AI到底是在"死记硬背"还是在"真正学习"？

长期以来，训练AI就像教育孩子一样，主要有两种方法：一种叫做监督微调(SFT)，就像传统的填鸭式教育，给AI看大量标准答案，让它模仿；另一种叫做强化学习(RL)，更像启发式教育，让AI在尝试中学习，做对了给奖励，做错了给惩罚。但是这两种方法哪种更能让AI真正"开窍"，一直是个未解之谜。

研究团队就像教育专家一样，设计了精巧的实验来探究这个问题。他们创建了一个类似"算24点"的数学游戏，给AI四张卡片，让它用加减乘除算出24这个数字。更巧妙的是，他们还设计了不同

清华大学发现：AI教学方法决定死记硬背或真正理解

官方：韩鑫宏...

内娱最后一位...

菜鸟赛季全明...

蔚来跌超6%...

大巴黎主场服...

19岁小伙多...

美国“龙”飞船执行新一期载人航天任务前往空间站

特朗普亚洲行美方称中美领导人将会面中方尚未官宣

奥沙利文谈全年参赛计划：计划参加所有中国比赛，全年参赛约11站

54岁王琳自曝家丑：被17岁儿子打到牙出血！

阿曼外交大臣：原定15日举行的伊美谈判取消

杜兰特：超巨不在于名号而在于表现我想一直打球直到再也打不动

“私募一哥”A股清零，大恒科技再临十字路口

“苏超”MVP范厚泰：感恩亚泰，感恩泰州，感恩“苏超”平台

山姆上架好丽友，为何让中产集体破防？

数学界顶流陶哲轩缺钱了！美国留不住人，中国这次能捡个大宝贝吗

少林寺回应NBA球星文班亚马＂剃发闭关＂：人确实在寺里

为减少对华稀土依赖美国又盯上电子垃圾回收

国际空间站2030年退役，多个商业项目或接棒，NASA将迎来“后空间站时代”

布莱克莫尔：曼联应签回德赫亚，当年滕哈赫赶走他是个错误

董璇二婚VS孙怡单身：杨幂那句结果都那样的含金量还在上升

华为鸿蒙 HarmonyOS 6.0.0.107 SP7 / SP5 Developer 版本发布

佩通坦：感谢泰国国王将父亲他信刑期从8年减至1年

陈道明主演！36集谍战剧来袭，是《沉默的荣耀》后我唯一想追的剧

共和党议员反水！特朗普支持的加密监管法案遭遇重大挫败，众议院表决失败

医美并购的“朗姿教训”

大学毕业生干1天保安被开除在地铁＂发泄式演讲＂3分钟

硬抢1.5亿用户！短视频之后，中国下一个流量战场被引爆

《朝雪录》刚播热度破9000，口碑出炉，观众评价出奇的一致

这些才是气质女人喜欢的穿搭！以裙子为主、色彩柔和，好高级