关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011005人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

名企老板娘称老公四婚五娃"要为夫复仇" 公司再回应

南方都市报 浏览 2461 07-27

冯绍峰被曝新恋情,女方周麟嘉神似赵丽颖?

老吴教育课堂 浏览 7393 08-05

电商助力 四川会东石榴从深山走向全国市场

封面新闻 浏览 144 09-29

特朗普改国防部为战争部 张维为:反映出美国的不自信

政知新媒体 浏览 166 09-19

货拉拉跑腿骑手取走万元苹果手机后失联 手机店主发声

红星新闻 浏览 117 10-15

不见特斯拉跟风国产?Model YL以六座SUV身份入局

道哥说车 浏览 2261 07-18

张本智和:医疗暂停&更换衣服在内的规则,都需要重新审视

直播吧 浏览 275 08-12

快递费上涨!广东、浙江电商客户单价率先调价,有商家每月多支出3万元|红星调查

红星资本局 浏览 262 08-25

特朗普与普京将在阿拉斯加会晤 泽连斯基被指可能参会

环球网资讯 浏览 9311 08-10

中国又一款六代机被美媒公开:或专为航母打造舰载机

科普大世界 浏览 3049 08-06

上海加快布局智能化类器官赛道,亚洲首台套体外模型智能化系统发布

文汇报 浏览 2337 08-09

女婿杀岳母后人间蒸发 切断与子女亲友所有联系潜逃

都市快报橙柿互动 浏览 188 10-01

英媒:切尔西已开始和阿贾克斯谈哈托,相信能以约4000万镑签下他

直播吧 浏览 683 07-17

普京指挥俄军战略核力量综合演习

环球网资讯 浏览 90 10-23

推广中奖名单-更新至2025年10月25日推广

黎贝卡的异想世界 浏览 52 11-08

到底什么人还在买油车?终于我悟了

汽车公社 浏览 96 10-22

佩通坦含泪谴责柬方:军方做好准备 当前不是谈判阶段

新京报 浏览 5565 07-25

牛弹琴:美国现在最火热的话题 成了特朗普执政的噩梦

现代快报 浏览 9914 07-14

岚图冲刺港股0融资:车型“偏科”,年销目标前9月完成48.5%

尺度商业 浏览 107 10-13

上市就官降3万 新款锋兰达变智能了 双擎和燃油版如何选?

蜗牛车志V 浏览 143 09-30

《白衣公卿》今日开机 龚俊双面身份赴爽燃复仇路

北青网-北京青年报 浏览 168 09-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11