关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011195人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2名以方被扣押人员失联 卡桑旅要求以军暂停空袭24小时

极目新闻 浏览 321 09-29

乔杉官宣妻子怀上三胎,携两女儿陪太太拍孕照

小咪侃娱圈 浏览 458 08-24

90后占比近六成,小鹏X9超级增程成年轻家庭首选

定焦One 浏览 225 01-20

日本开始一项"史无前例"行动:派多架战斗机前往欧洲

枢密院十号 浏览 392 09-20

安卓机器人变透明!5月13日揭晓,Android史上最重要年份之一

IT之家 浏览 53 05-06

小鹏 P7+ 汽车累计交付 8 万台

IT之家 浏览 312 10-15

全球能源循环计划亮相慕尼黑车展,宁德时代、奔驰、宝马共同参与

环球网资讯 浏览 350 09-11

2026年春晚分会场官宣 周深肖战刘宇宁令人期待

你我话娱乐 浏览 183 12-29

梁小龙一生太精彩!曾被封杀20年,公开承认出轨,还跟周星驰反目

萌神木木 浏览 220 01-19

东风日产首款插混轿车N6官宣:21.1kWh“同级最大”电池,Q4见

IT之家 浏览 1794 08-09

千亿梯媒巨头25亿巨额计提背后,监管“导火索”已引燃半年之久

野马财经 浏览 188 02-03

50岁女性冬季穿衣指南:避开 2 大禁忌,这样得体又时髦

静儿时尚达人 浏览 232 12-03

国庆狂销7套!中海大境实景示范区人气爆棚,热气球瞰湿地太震撼

智谷趋势 浏览 380 10-02

连Win10都要停服了,那么多电脑该咋办?

江瀚视野 浏览 287 10-16

德天空:大幅涨薪,努涅斯在利雅得新月每年将净赚1500万欧

懂球帝 浏览 2623 08-07

你的高级感,烟管裤轻松搞定!

Yuki女人故事 浏览 71 04-28

官方!福克斯因伤无缘中国行 其老板库里中国行活动不受影响

醉卧浮生 浏览 8436 07-25

夏天穿衣别发愁,多试试牛仔单品和连衣裙,简单大方又减龄

静儿时尚达人 浏览 7602 07-06

达洛特:之前和姆伯莫库尼亚交手头疼不已,非常高兴他们加盟

懂球帝 浏览 1534 07-31

TVB绿叶演员生存报告

仙女事件簿 浏览 445 08-19

43岁李宗伟谈羽联改革:若改用15分制,说不定我也会复出

懂球帝 浏览 86 04-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11