参考指南

本文信息：作者为科技联合创始人、执行董事、首席科学家林达华，题目为《迈向多通用智能：商汤的思考》。以下为正文：

AI 是一场长跑。从大语言模型（LLM）的兴起到真正意义的通用人工智能（AGI），还有很多开放性的问题有待解决。我们认为，多模态是从 LLM 到 AGI 的必经之路。

围绕多模态，从智能演进、学习范式、数据和模型架构都面临诸多挑战，也有很大的创新空间；在组织和战略层面也有很多值得思考的问题。在本文中，我先整体回顾一下商汤的多模态之路，然后就其中的关键问题谈一下我们的思考。

1、商汤多模态之路概览

商汤是从计算机视觉技术出发，在人工智能变革浪潮中发展起来的企业。在发展之初，商汤基于深度学习在视觉领域的运用，在人脸识别、画质处理、智能驾驶等多个应用方向突破了工业红线，推动了 AI 技术在行业的落地应用。

早在2019年，商汤就基于自身的技术判断，开始在视觉模型上进行尺度定律的探索，在业内率先推出百亿参数的视觉大模型，在视觉识别上突破了多项性能纪录。这一前瞻性的技术观察，也是推动商汤较早就进行大规模 AI 算力投入的重要原因。

2022年底，OpenAI 推出 ChatGPT，掀起了全球范围的大模型浪潮，AI 进入了2.0时代。对于商汤来说，这是一次重要的机遇。我们当时开始思考，当视觉模型和语言模型在尺度定律上相会，会给我们带来什么？

在2023年3月，商汤和上海人工智能实验室合作研发，推出了我国首个多模态通用大模型“书生2.5” 并开源。这个30亿参数的大模型刷新了包括 ImageNet 和 COCO 在内的多个视觉任务的纪录，并且初步展示了通用图文问答能力。在6个月之后，Open

商汤科技发布万字长文：多模态是通往AGI必经之路

和祐质子重离...

高德地图做榜...

小明 Q6 ...

2025款极...

高叶哭戏震撼...

主要针对能源...

小订过万！打死不说价格的全新小鹏 P7，用颜值吊起了所有人的胃口！

热刺亚洲行大名单：孙兴慜领衔，新援库杜斯&武什科维奇在列

苹果明年iPhone折叠屏手机被曝全面采用eSIM、TouchID而非Face ID

唐钱婷：前程冲出去一直是我的特点，身体状态目前不在最佳

世纪大和解？74岁刘晓庆手臂受伤宁静贴心牵她手

落马官员受贿细节：行贿者把装198万现金拉杆箱放车里

宗馥莉被3名自称同父异母弟妹起诉，娃哈哈遗产争夺该咋看？

美媒：报告称，东南亚成美国电子垃圾倾倒场

周冠宇忆英国站事故：对我也是打击很大的一次，好在人是平安回归

赣媒：赣超开赛六轮以来累计观赛人次突破46万，成江西夏日顶流

新研究发现 AI 的最大破绽：不是不够聪明，而是不会“骂人”

媒体：美国解除对白制裁系大国格局中精心策划的变动

美大豆堆积如山特朗普请求采购中方亮条件做不到免谈

特朗普称把俄乌达成和平协议期限缩短为10天

女人一定要拥有的4件“大”衣服！

许昕谈张本智和医疗暂停：他暂停次数用完了不知真假

加拿大媒体：让我们摆脱美国与中国建立更紧密的关系

鞭辟入里剧力万钧，这是惊艳世人的作者表达

美参议院否决限制特朗普对伊朗动武权力的提案

经典与创新的时代对话，保时捷携两款911登陆第八届进博会

岷山环能：供应商与关联方背后现同名人员突击入股的股东与大客户或关系待解

瓜罗：米兰放弃莱昂尼转攻德温特；国米将主攻卢克曼交易

全球5个让你屏住呼吸的震撼装置艺术

爱康国宾再回应“女律师体检10年未提示癌症”：曾提示过癌症可能性