关闭广告

商汤科技发布万字长文:多模态是通往AGI必经之路

网易科技报道2025-08-13 12:00:017671人阅读

本文信息:作者为科技联合创始人、执行董事、首席科学家林达华,题目为《迈向多通用智能:商汤的思考》。以下为正文:

AI 是一场长跑。从大语言模型(LLM)的兴起到真正意义的通用人工智能(AGI),还有很多开放性的问题有待解决。我们认为,多模态是从 LLM 到 AGI 的必经之路。

围绕多模态,从智能演进、学习范式、数据和模型架构都面临诸多挑战,也有很大的创新空间;在组织和战略层面也有很多值得思考的问题。在本文中,我先整体回顾一下商汤的多模态之路,然后就其中的关键问题谈一下我们的思考。

1、商汤多模态之路概览

商汤是从计算机视觉技术出发,在人工智能变革浪潮中发展起来的企业。在发展之初,商汤基于深度学习在视觉领域的运用,在人脸识别、画质处理、智能驾驶等多个应用方向突破了工业红线,推动了 AI 技术在行业的落地应用。

早在2019年,商汤就基于自身的技术判断,开始在视觉模型上进行尺度定律的探索,在业内率先推出百亿参数的视觉大模型,在视觉识别上突破了多项性能纪录。这一前瞻性的技术观察,也是推动商汤较早就进行大规模 AI 算力投入的重要原因。

2022年底,OpenAI 推出 ChatGPT,掀起了全球范围的大模型浪潮,AI 进入了2.0时代。对于商汤来说,这是一次重要的机遇。我们当时开始思考,当视觉模型和语言模型在尺度定律上相会,会给我们带来什么?

在2023年3月,商汤和上海人工智能实验室合作研发,推出了我国首个多模态通用大模型“书生2.5” 并开源。这个30亿参数的大模型刷新了包括 ImageNet 和 COCO 在内的多个视觉任务的纪录,并且初步展示了通用图文问答能力。在6个月之后,Open

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

唐钱婷:前程冲出去一直是我的特点,身体状态目前不在最佳

懂球帝 浏览 4547 07-30

世纪大和解?74岁刘晓庆手臂受伤 宁静贴心牵她手

疯说时尚 浏览 145 09-19

落马官员受贿细节:行贿者把装198万现金拉杆箱放车里

红星新闻 浏览 310 08-17

宗馥莉被3名自称同父异母弟妹起诉,娃哈哈遗产争夺该咋看?

江瀚视野 浏览 2670 07-17

美媒:报告称,东南亚成美国电子垃圾倾倒场

环球网资讯 浏览 84 10-24

周冠宇忆英国站事故:对我也是打击很大的一次,好在人是平安回归

直播吧 浏览 2336 08-13

赣媒:赣超开赛六轮以来累计观赛人次突破46万,成江西夏日顶流

直播吧 浏览 284 08-19

新研究发现 AI 的最大破绽:不是不够聪明,而是不会“骂人”

IT之家 浏览 52 11-08

媒体:美国解除对白制裁 系大国格局中精心策划的变动

上观新闻 浏览 201 09-19

美大豆堆积如山特朗普请求采购 中方亮条件做不到免谈

南权先生 浏览 174 10-01

特朗普称把俄乌达成和平协议期限缩短为10天

浏览 148012 09-26

女人一定要拥有的4件“大”衣服!

LinkFashion 浏览 5127 06-06

许昕谈张本智和医疗暂停:他暂停次数用完了 不知真假

鲁中晨报 浏览 349 08-12

加拿大媒体:让我们摆脱美国 与中国建立更紧密的关系

环球时报国际 浏览 1165 07-17

鞭辟入里剧力万钧,这是惊艳世人的作者表达

幕味儿 浏览 9037 08-07

美参议院否决限制特朗普对伊朗动武权力的提案

界面新闻 浏览 10340 06-28

经典与创新的时代对话,保时捷携两款911登陆第八届进博会

观察者网 浏览 56 11-08

岷山环能:供应商与关联方背后现同名人员 突击入股的股东与大客户或关系待解

金证研 浏览 6526 07-12

瓜罗:米兰放弃莱昂尼转攻德温特;国米将主攻卢克曼交易

懂球帝 浏览 7305 08-11

全球5个让你屏住呼吸的震撼装置艺术

时尚COSMO 浏览 1120 07-09

爱康国宾再回应“女律师体检10年未提示癌症”:曾提示过癌症可能性

红星资本局 浏览 6317 07-30
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11