关闭广告

研究人员提出OThink-R1,让大模型自行决定是否需要深度思考

DeepTech深科技2025-09-02 00:00:02206人阅读

近日,浙江大学硕士生张盛佳和所在团队发现:深度推理模型的部分推理过程是不必要的。一方面,目前的深度推理模型在面对一些例如“1+1=?”的简单问题时,也需要大费周章地进行深度思考。而人类在面对诸如此类的简单问题时,往往能够凭直觉给出答案;另一方面,在一些简单任务上(例如,常识问答和小学生数学题),即使不具有深度推理能力的大模型也能取得较好的效果。本次研究基于所观察到的现象提出了一种解决方案,使得深度推理大模型在解决问题时,能够自行决定是否进行深度思考,有利于计算资源更加合理的分配,提升大模型的推理效率。


图 | 张盛佳(来源:张盛佳)

据介绍,受限于数据与算力的规模,预训练以 Transformer 为基础架构的大模型所带来的收益正在不断式微。那么,该如何进一步提升大模型的能力?近来,以 DeepSeek-R1、OpenAI o1 为代表的深度推理大模型突破了预训练 Scaling Law 的限制,通过增加测试时计算资源的投入,在多种复杂任务上取得了优异的效果。与非深度推理大模型相比,深度推理大模型通过模仿人类进行深度思考,能够更加准确地理解用户的需求,更加深入地分析用户提出的问题。

然而,目前的深度推理

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

缅甸代理总统敏瑞病逝后有新消息:全国大选日期定了

新民周刊 浏览 298 08-19

英特尔正实施近15%裁员方案

界面新闻 浏览 9952 07-25

深夜!大跌超14%,发生了什么?

券商中国 浏览 223 08-28

天空体育:格伊拒绝与水晶宫续约,皇马、巴萨和尤文均有意免签

直播吧 浏览 256 08-27

王兴兴等5位民营企业代表走进国新办发布会,谈了什么?

国是直通车 浏览 3293 07-16

落马副部骆玉林受贿2.2亿被判死缓 终身监禁不得减刑

界面新闻 浏览 1125 07-15

一季度亏67亿 蔚来穿越什么周期才能盈利?

汽势传媒 浏览 271 06-06

贵州日报:巴乔、卡洛斯抵达贵州;26日将前往村超现场助威

懂球帝 浏览 4969 07-26

泽连斯基"正装"设计师:衣服本不是为"特泽会"准备的

红星新闻 浏览 348 08-21

多名儿童在博物馆翻越围栏 有家长让孩子把标本抱手上

看看新闻Knews 浏览 3395 08-11

无知!男子救人被骂“袭胸”

网易健康 浏览 2730 07-16

马克龙再选勒科尔尼当总理遭批,法媒:没有议会支持的总统,只会陷入更深孤立

环球网资讯 浏览 105 10-13

居然智家新任“掌舵人”定了,53岁王宁当选董事长并兼任CEO

红星资本局 浏览 259 08-22

同名同姓同籍贯同省任职 两个"蔡光辉"一年内双双落马

扬子晚报 浏览 8613 07-26

高速路现SUV蛇形走位致后方堵车 交警:驾驶员突发疾病

现代快报 浏览 172 09-17

处理二手家具要给"代扔费":女子扔800元床垫花了500元

封面新闻 浏览 1843 07-30

江西一地教师选调拟录取多名10分以下考生 官方通报

大风新闻 浏览 305 08-15

三星 Galaxy Buds 4/Pro 旗舰耳机首现踪迹,有望 2026 年初发布

IT之家 浏览 158 09-20

Meme股热潮下散户“新宠”更迭快,盘中GoPro、Krispy Kreme暴涨,Kohl’s和Opendoor跳水

华尔街见闻官方 浏览 3943 07-24

蔚来全新ES8亮相:40.68万起

三言科技 浏览 173 09-21

特斯拉副总裁陶琳谈“刹车门”:坚持做正确的事情,剩下交给时间

IT之家 浏览 4137 07-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11