关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:01944人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

小米17蹭iPhone17热度?卢伟冰:7是一个幸运数字

观察者网 浏览 102 09-20

2022年1月1日以后出生的婴幼儿均可领取育儿补贴

央视新闻客户端 浏览 4215 07-31

21-15,21-8!石宇奇轻松晋级中国公开赛八强,下轮上演国羽内战

全景体育V 浏览 7044 07-25

范曾曾出国发展称"高兴" 3年后忏悔希望祖国接纳他

南风窗 浏览 210 08-21

HWG!罗马诺:AC米兰签药厂前锋博尼法斯,租借费+买断共2900万欧

直播吧 浏览 195 08-22

突发!宇树科技今天要上法庭

财通社 浏览 216 08-26

国防部:美国"金穹"系统将打开潘多拉魔盒

界面新闻 浏览 3992 05-30

谷歌前高管:AI将取代多数人类工作,无能CEO也难幸免

IT之家 浏览 235 08-12

女子将40万奔驰借前男友被抵押10万 前男友:宝宝别哭

潇湘晨报 浏览 3119 08-11

170亿美元交易落定,SpaceX收购Echostar无线频谱

IT之家 浏览 135 09-09

以色列多地拉响防空警报 本-古里安国际机场关闭

界面新闻 浏览 4237 06-04

一文带你了解儿童胸部肿瘤

网易健康 浏览 3236 06-03

他初出茅庐用一叠草稿纸,成功动摇了物理学百年根基…

中国科普博览 浏览 208 08-23

云南媒体:余鉴贤初中才开始接触门将训练 早学会与“等待”和解

直播吧 浏览 1066 08-06

特朗普对关税态度大转弯 扔出三个条件请求中方答应

时时有聊 浏览 25 10-21

胖东来招聘网站被挤爆 8.9元"面试真题"被公开叫卖

每日经济新闻 浏览 287 08-29

诺奖得主贝尔托齐:癌细胞“糖衣”的伪装机制和药物策略

澎湃新闻 浏览 222 08-28

泰国外长抵达联合国总部,通报泰柬冲突情况

界面新闻 浏览 7200 07-25

华为鸿蒙第五界首车正式亮相

电动知家 浏览 2049 07-14

开发者大会召开,12 家中国团队斩获 14 项全球年度大奖

网易科技报道 浏览 9432 08-14

今世缘:存货逐年攀升至逾50亿元 净利润增速放缓或未达预期

金证研 浏览 4858 07-17
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11