关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:01691人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

上海最大原拆原建小区回搬:始建于1958年 有94种户型

每日经济新闻 浏览 1991 07-17

为什么中国卖水能出首富?美国富豪都在搞科技?

诗与星空 浏览 730 07-28

王楚钦夺冠颁奖!张本无表情,王楚钦开心接奖杯,整发型帅气自拍

篮球资讯达人 浏览 5445 07-14

脑机接口:跨越技术门槛 叩响未来之门

浏览 7389 07-14

今世缘:存货逐年攀升至逾50亿元 净利润增速放缓或未达预期

金证研 浏览 4612 07-17

新华社深度解读:马斯克建“美国党”背后三大推手

澎湃新闻 浏览 3314 07-12

林俊杰被诊断出心脏病,44岁未婚无子

涵豆说娱 浏览 2533 07-14

塔帅:约克雷斯有可能和哈弗茨一起上场 对更多签约持开放态度

直播吧 浏览 1626 07-28

俄乌冲突以来乌内阁最大规模换血 乌总统被指加强权力

澎湃新闻 浏览 6899 07-23

“多巴胺穿搭”又流行回来了?这么穿高级不显土,甜度爆表!

Yuki女人故事 浏览 10082 07-02

AI教父辛顿现身上海:人类如何不被AI杀掉

态℃ 浏览 8613 07-27

美国智库披露美打击伊核设施背后隐情

国际在线 浏览 563 07-16

35+件小个子也能穿的短袖!日常百搭!闭眼入!

Yuki女人故事 浏览 9197 06-08

无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer

学术头条 浏览 2151 07-13

突发,大跳水!巴菲特,卖出!

券商中国 浏览 4164 07-30

62岁女富豪曹佩凤投案自首 与丈夫曾经三登胡润百富榜

华夏时报 浏览 8251 07-10

中国航海日丨驰骋深蓝,见证“中国智造”有多震撼!

环球网资讯 浏览 9991 07-12

孙铭徽“试训”拜仁:爱开大脚适合中卫 奥利塞速度技术和我相似

直播吧 浏览 610 07-15

在外高冷,在家宠妻的完美丈夫?我不信

Yuki女人故事 浏览 9769 07-01

美国与欧盟达成15%税率关税协议

财联社 浏览 6110 07-28

俄乌超百万规模的兵力集结 普京下令推进中方紧急预警

掌青说历史 浏览 1323 07-17
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11