关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011009人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普讲话70分钟 美军将领保持沉默:艰难得像走钢丝

红星新闻 浏览 194 10-02

鹿晗解封炸热搜,关晓彤这波“暗糖”操作,分手谣言原地破防!

阿讯说天下 浏览 1696 07-09

31岁女子为嫁"高富帅"男友与母亲互殴 男方父母发声

极目新闻 浏览 224 10-02

教练机梯队:压轴出场 接受检阅

新华社 浏览 221 09-04

演唱会"出轨门"女高管已辞职 其丈夫事发时据称在海外

红星新闻 浏览 8376 07-26

李一桐新剧一集“死”11次,演技圈粉无数,逆袭成爆款女主!

娱乐白名单 浏览 8387 07-10

抢不到票、退不了款,演唱会的锅该不该大麦背?

定焦One 浏览 317 08-20

记者:罗马本周计划推进签下韦斯利,球员与红狼军团已达个人协议

直播吧 浏览 830 07-15

F1比利时排位赛:诺里斯杆位,维斯塔潘第4,汉密尔顿Q1淘汰

懂球帝 浏览 981 07-27

网传鹿晗这么快解封,陈赫在其中起关键作用,在背后帮了他一把

七阿姨爱八卦 浏览 7994 07-09

同游仍少年!精灵世界空降杭州

时尚COSMO 浏览 86 10-28

郭京飞年代剧《老舅》今晚央视播,阵容强要火

娱君坠星河 浏览 11 12-15

美国西雅图一客机因乘客威胁停飞

环球网资讯 浏览 1639 06-15

红旗首款越野车征名送车

大象新闻 浏览 137 10-13

埃弗顿vs富勒姆:格拉利什、皮克福德首发,劳尔-希门尼斯、莱诺出战

懂球帝 浏览 54 11-09

董秘也“打短工”?道通科技董秘上任5个月即离任

华夏时报 浏览 74 11-01

海牛:从未拖欠兰克尔·泽薪酬

体坛周报 浏览 44 11-25

中超一线队夏窗转会:米特里策、韦斯利登陆中超;蓉城无引援

懂球帝 浏览 2141 07-22

黑芝麻,要抱国资的大腿?

斑马消费 浏览 9412 08-06

队记:若你不认识杨瀚森&他身上无自带光环 那你能看出他打得最好

直播吧 浏览 3479 07-21

马卡:奥萨苏纳不会就马斯坦托诺投诉皇马,他们也干过类似的操作

直播吧 浏览 285 08-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11