关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro2026-04-22 12:00:0177人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

建议40、50+女性:穿衣简单越显贵,这样穿轻松拿捏高级感

静儿时尚达人 浏览 3770 06-07

10月工信部新车合集:合资车企还在发力

爱驾天下 浏览 298 10-14

150亿美元!特朗普关税冲击企业盈利,机构预警美股短期压力

第一财经资讯 浏览 979 08-07

大满贯冠军对决!萨巴伦卡鏖战超3小时,险胜晋级辛辛那提16强

全景体育V 浏览 8199 08-12

芯片制造的终极范式:原子级制造

钛媒体APP 浏览 324 10-16

五六十岁的女人,穿衣要讲究和得体,牢记这5个穿搭法则实用

静儿时尚达人 浏览 478 08-16

恒大集团取消上市地位,这笔欠账何去何从?

财视传播 浏览 5615 08-13

记者:亨克的瓦赫迪和皇社的阿兰布鲁可能成为米兰右后卫备选

懂球帝 浏览 8012 07-25

Neue Klasse平台首车 宝马iX3试装车发布

车质网 浏览 449 06-12

3年亏了400亿!景顺长城,被基民骂惨了……

包不同 浏览 2659 07-17

地平线苏箐:3年后 准L4级系统大概率已经量产

网易汽车 浏览 216 12-10

男子自称前股东 实名举报李雪琴公司财务问题

鲁中晨报 浏览 9744 06-18

演唱会看出张杰夫妇相处方式,并非谢娜“矫情”

清游说娱 浏览 2565 07-31

德国“激光照射”碰瓷,东大保持战略定力

浏览 10213 07-14

长期的“台积电第一大客户”,苹果如今也不得不“抢产能”了

华尔街见闻官方 浏览 241 01-16

信捷电气亮相华为云城市峰会,联手打造具身智能应用新标杆

证券时报 浏览 4860 07-14

技嘉X870E X3D超级冰雕主板图赏:超大彩屏,五彩斑斓的白

IT之家 浏览 238 11-17

打造全球好物“首发首秀地”,东方购物白玉兰直播间首度亮相第八届进博会

上观新闻 浏览 265 11-06

普京提议重启俄乌直接谈判后 特朗普表态

环球网资讯 浏览 4803 05-12

阿里给AI To C战略戴上眼镜

蓝鲸新闻 浏览 7873 07-29

美媒:特朗普称最早于下周与普京进行面对面会晤

央视新闻客户端 浏览 4256 08-07
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11