关闭广告

全新合成框架SOTA:强化学习当引擎,任务合成当燃料

量子位2025-10-02 00:00:02136人阅读

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成



实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

黄仁勋年内第三次访华 大热天仍穿皮夹克与雷军合影

界面新闻 浏览 952 07-15

54岁中南大学博导被批捕 涉嫌侵占上市公司1.9亿资金

大风新闻 浏览 202 09-09

于和伟逆袭的路上,藏着这样的一个女子

农村娱乐光哥 浏览 106 10-16

央视主持人再上新 已有多位"00后"

极目新闻 浏览 2845 06-15

一架载有约20人飞机在美国田纳西州坠毁 多人受伤

环球网资讯 浏览 1949 06-09

WAIC前线|GMI Cloud发布“ AI 应用构建成本计算器”

网易科技报道 浏览 5590 07-28

名宿:拜仁选孔帕尼,如同中了头奖

体坛周报 浏览 72 10-29

终止在华发动机业务 三菱汽车彻底退出中国市场

界面新闻 浏览 3026 07-24

万科三季度净利润亏损160.69亿,深铁今年第十次“输血”

财视传播 浏览 83 10-31

高盛突然宣布不裁员了,金融业要有大变了吗?

江瀚视野 浏览 2358 08-10

为减少对华稀土依赖 美国又盯上电子垃圾回收

澎湃新闻 浏览 2542 07-15

陈凯歌做梦也没想到,竟有一天会因儿子陈飞宇,实现口碑暴增

温柔娱公子 浏览 168 09-22

亚洲颜值天花板,居然合体了

独立鱼 浏览 98 10-19

三星最贵手机:Galaxy Z TriFold三折叠手机跑分首曝

IT之家 浏览 31 12-05

特斯拉正式落户印度!

电动知家 浏览 7639 07-14

造出国民神车五菱的柳州,为何突然没有存在感了?

BT财经 浏览 203 09-09

读懂IPO|安达股份超八成收入来自燃油车,依赖大客户实现业绩逆跌

时代周报 浏览 271 08-22

世锦赛男子200米自由泳:潘展乐总成绩第22无缘半决赛 张展硕晋级

直播吧 浏览 5998 07-28

金泰希谈育儿经压力大,透露两女儿长相情况

一盅情怀 浏览 236 08-25

券商上半年“成绩单”亮眼,下半年投资机会在哪?

天下财道社 浏览 530 07-31

媒体:印度想不通 对印"高看一眼"的特朗普为何翻脸

北京日报客户端-长安街知事 浏览 2653 08-08
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11