关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro2026-04-22 12:00:0180人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

轴距增加39mm/配EA888动力 全新Q5L实车图曝光

网易汽车 浏览 3732 06-24

特朗普:可能很快宣布美联储新任主席

证券时报e公司 浏览 5466 08-06

高市政府迟迟不道歉还发出战争威胁 中方8个字宣告结局

时时有聊 浏览 254 11-08

Darling hold my hand,七夕礼物挑到疲倦

时尚COSMO 浏览 417 08-22

供应链首个自主AI Agent平台发布,迈入全链路自主决策阶段

澎湃新闻 浏览 3308 07-28

叙利亚过渡政府宣布延长停火15天

上观新闻 浏览 222 01-25

樊少皇也沦落到拍网大,票房惨不忍睹,时代想抛弃谁招呼都不会打

最爱酷影视 浏览 414 09-02

伊姐周六热推:电影《浪浪山小妖怪》;电影《玛丽和麦克斯》......

伊周潮流 浏览 8353 08-03

净利润暴增503倍!310亿“零食大王”,冲刺港股IPO

侃见财经 浏览 312 10-13

男子市区骑车遭横空绳索割喉 医生几乎为他"重造"喉部

红星新闻 浏览 564 08-27

上市公司购买6000万私募产品“爆雷”

诗与星空 浏览 222 01-06

媒体人:阻碍中国篮球发展因素太多 希望杨瀚森亚洲杯出工少出力吧

直播吧 浏览 3111 07-24

智商真是天生的?中国科学家发现大脑“临界态”的遗传密码

网易科技报道 浏览 2091 07-16

夏联-勒布朗观战布朗尼14分3助攻,湖人末节发力擒鹈鹕

湖人崛起 浏览 7728 07-13

酷比魔方将推出新款 Windows 二合一 PC平板

IT之家 浏览 964 08-09

今年CBA选秀一共21人被选中 历史第4多 连续5年20+球员被选中

直播吧 浏览 7421 07-26

记者:斯图加特中场米约已获准与马竞进行谈判

懂球帝 浏览 9964 07-27

凯尔特人120-112力克太阳,布朗41+7+6,塔图姆21+7,布克40分

懂球帝 浏览 150 03-17

车机系统升级 新款吉利ICON将于7月11日上市

车质网 浏览 2345 07-04

中领馆:正就印度客机坠毁核实有无中国公民

南方都市报 浏览 5974 06-13

声音更加动听 本田全新一代混合动力系统最新消息曝光

乐选爱车 浏览 219 01-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11