关闭广告

刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章

华尔街见闻官方2026-01-02 00:00:01217人阅读

来源:机器之心

新年第一天,DeepSeek 发布了一篇新论文,提出了一种名为 mHC (流形约束超连接)的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 。

简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。


这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。<

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普要重启核试验引巨大争议:因中国五年内可赶上

澎湃新闻 浏览 248 11-01

太强了!大谷翔平赛季第40轰&连续3年达成,比上赛季提前12场!

直播吧 浏览 3932 08-10

15岁道曼可出战新赛季英超,但已无缘打破恩瓦内里最年轻出场纪录

直播吧 浏览 9215 07-28

机长执飞前饮酒导致三个航班严重延误 日航37名高管被降薪

极目新闻 浏览 362 09-18

懂穿搭的女人,把“卫衣”收进衣柜,这3件单品才是时髦密码

静儿时尚达人 浏览 314 10-05

侧记|变革浪潮扑面而来,今日的媒体人要和AI说“谢谢”吗?

澎湃新闻 浏览 1633 07-28

豪华同源“真国产卫士”,奇瑞风云X3L到底有多牛

车知事 浏览 514 08-23

詹杜库2K26能力值:三人均进Top10 詹库都是94

直播吧 浏览 432 08-22

MiniMax推出Agent全栈开发功能!一句话聊出演唱会选座系统,可锁座可支付

智东西 浏览 3173 07-17

佩通坦生日当天出庭受审 有分析称其可能在判决前辞职

红星新闻 浏览 587 08-22

美首次在其本土外进行“堤丰”中导系统实弹射击演练

环球网资讯 浏览 2393 07-18

蚂蚁集团开发的超级机器人大脑:让机器人像人一样学会做任何事

科技行者 浏览 205 01-29

女星陈匡怡怒斥台媒毁人名节,自曝写了遗书,拒绝富商追求遭抹黑

萌神木木 浏览 166 12-16

马斯克旗下xAI起诉苹果与OpenAI,指控两者合谋垄断AI市场

第一财经资讯 浏览 409 08-26

迈阿密国际1-4不敌奥兰多城,马斯切拉诺:我负全部责任

懂球帝 浏览 507 08-11

21岁艾菲尔丁落选U22国足名单,本赛季中超仅出战4次

直播吧 浏览 469 08-23

万斯:为和泽连斯基破冰 我告诉他要"规矩点"

鲁中晨报 浏览 538 08-22

法国学者五味杂陈:法国技术明珠要被中国摘了

澎湃新闻 浏览 2406 07-12

辛芷蕾:角色执笔

时尚COSMO 浏览 5541 07-26

听证会上一问三不知 特朗普提名"对抗中国"大使遭群嘲

上游新闻 浏览 3703 07-11

儒意收购万达电影后,新故事才刚刚开始

斑马消费 浏览 323 09-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11