关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者2025-10-28 00:00:01266人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

一条牛仔裤穿20年的擦马桶女孩,继承了900亿

Yuki女人故事 浏览 9539 08-05

最高法改判福清祖屋强拆案后 屋主再提诉讼

澎湃新闻 浏览 311 10-13

《庆余年》第三季大结局

草莓解说体育 浏览 348 09-20

韩鹏谈接任泰山一线队教练组组长:自己家里有事,咱得上啊

直播吧 浏览 416 08-22

汽车行业掀起赴港IPO热潮,中意低成本融资渠道

禾颜阅车 浏览 7557 07-14

百度智能云发布全球首批AI数字员工,7类岗位“上岗即胜任”

网易科技报道 浏览 9554 08-06

霍伊伦德死心考虑离开曼联!为世界杯不得不走人,拒绝交换谢什科

罗米的曼联博客 浏览 8669 08-07

四川泸县警方通报一婚车队遭遇连环车祸:10人受伤

界面新闻 浏览 1562 07-09

美国发布AI行动计划,全球竞争与分化或加剧……

国际金融报 浏览 4640 07-26

进击的谷雨

华商韬略 浏览 372 10-02

华硕推出《崩坏 3》限定礼盒,内含爱莉希雅主题 ROG Phone 配件

IT之家 浏览 279 10-24

突然!全线暴跌,发生了什么?

券商中国 浏览 410 09-02

俄女议员:若对华免签 将有大量中国男性涌入俄找对象

梁讯 浏览 466 09-18

蔚来ES9开启预售,电池租用方案预售价42 万元起

北京商报 浏览 110 04-10

高市落泪称让民众不用担心中国 关键时刻金正恩出手了

时时有聊 浏览 232 01-29

卢靖姗晒挺孕肚健身自拍照,四肢纤细状态超好

手工制作阿歼 浏览 2045 07-17

沈腾和林允先后在一个公园现身 两人关系究竟是?

情感大头说说 浏览 1465 07-22

中国超半数城市人口下滑,什么信号?

智谷趋势 浏览 4779 07-12

一年挣960亿,印钞机都不如它卖力

老斯基财经 浏览 5375 07-12

揭阳潮汕机场跑道被指被雷劈坏致多航班延误 回应来了

潇湘晨报 浏览 8264 07-11

抵达意大利,拉斯帕多里:很高兴能回来,我很激动且充满动力

懂球帝 浏览 231 01-15
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11