关闭广告

全新合成框架SOTA:强化学习当引擎,任务合成当燃料

量子位2025-10-02 00:00:02307人阅读

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成



实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

19岁小伙错付1010元打车费索要无果后自杀 官方已介入

极目新闻 浏览 2279 07-24

最后一部F1赛车V10引擎即将拍卖

MOTO 浏览 4407 07-29

限量+性能版旅行车,斯巴鲁WRX Wagon入华

爱驾天下 浏览 426 06-23

像素蛋糕推出摄影行业首个AI一体化方案:一体化智能工作流

网易科技报道 浏览 4072 07-17

状态极差,博卡青年近三个月未能在比赛常规时间中赢球

懂球帝 浏览 1293 07-24

记者:维拉和埃弗顿也有意路易斯-恩里克,伯恩茅斯的报价最具体

懂球帝 浏览 206 01-29

转型紧凑型纯电SUV 新一代日产聆风发布

车质网 浏览 8879 06-23

苹果发布iPhone 17e

澎湃新闻 浏览 156 03-03

特朗普:将就美国对伊朗军事行动在白宫发表全国讲话

环球网资讯 浏览 6403 06-22

西安下架万余辆不合规网约车 官方进驻滴滴等平台检查

红星新闻 浏览 492 08-16

18亿广告总裁转型投资餐饮,她用2年时间拿下6家店

餐饮老板内参 浏览 3175 07-25

拆解具身智能落地难题:智元机器人出牌,今年推7个场景商业化

时代周报 浏览 465 08-23

时隔23年,国米和罗马再次在意甲至少10轮过后同分领跑

懂球帝 浏览 248 11-11

新的内卷,不只是卡在手臂上的纸杯套

时尚COSMO 浏览 308 08-30

苹果供应链大动作:部分Mac Mini生产今年将从亚洲转移到美国

IT之家 浏览 169 02-24

WAIC前线|登陆上海 文远知行联合奇瑞、锦江出租获批L4级智能网联汽车主驾无人示范应用牌照

网易科技报道 浏览 8115 07-28

广发证券:本轮港股春季躁动会缺席吗?

智通财经 浏览 201 12-15

被稀土打怕了,特朗普对铜征50%关税,中国铜产业有多强?

北向财经 浏览 1653 07-13

蔚来新 ES8 汽车光毯功能支持车道贴合和车身示宽两种模式

IT之家 浏览 445 08-20

卡什:阿卡辛纳这样“双马竞争”对网坛来说不是健康的事

网球之家 浏览 222 01-09

悉尼枪案:男子勇夺一歹徒枪支 很多人活下来全靠他

红星新闻 浏览 231 12-15
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11