关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:01673人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

暑期档剧综大战:修仙、打拐、姐弟恋……

仙女事件簿 浏览 5620 07-30

鲍威尔淡化9月降息预期 美大型科技股多数收跌

中新经纬 浏览 3633 07-31

记者:美资哈堡集团已完成对沙特职业联赛球队拉斯永恒的收购

懂球帝 浏览 2937 07-25

皖北这座新机场命名获正式批复

金台资讯 浏览 5560 06-08

《南京照相馆》首日夺冠,黄渤新片受挫,300亿票房目标又泡汤了

靠谱电影君 浏览 4026 07-26

耗资14.3亿,预售票房仅114万,黄渤把这部好莱坞大片打惨了​

靠谱电影君 浏览 6672 07-22

到店团购,京东外卖下一个增长点

北京商报 浏览 2213 07-18

6名大学生溺亡 知情人士:这类格栅板通常不会永久固定

大风新闻 浏览 7769 07-26

受强对流天气影响 大连机场多处漏水

极目新闻 浏览 226 06-11

金融数据回暖 社会资金流动性增强

金证研 浏览 2248 07-18

航班关舱门时发现两人上错飞机 航司通报

界面新闻 浏览 2375 07-09

标普新高背后的隐忧:曾精准预测08危机的经济学家揭秘美国经济“暴风雨前的平静”

智通财经 浏览 3944 07-25

小米阴影下,美的“横着走”

锦缎研究院 浏览 3579 07-14

《朝雪录》开分惊现冰火两重天!颜狗狂欢!

阿废冷眼观察所 浏览 2495 07-18

图片报:多特蒙德计划与科瓦奇续约,内部将讨论两种续约方案

懂球帝 浏览 3151 07-16

泰国快递员淡定穿越炮火送货上门:身后爆炸浓烟升起

新京报 浏览 8505 07-27

“弟弟妹妹”突然杀到,宗馥莉接班不易

智谷趋势 浏览 2799 07-15

特朗普称早已经与爱泼斯坦断交:他不止一次"背叛"我

环球网资讯 浏览 7214 07-30

铠侠推出目前最大容量固态硬盘:企业级 LC9 新增 245.76TB 版本

IT之家 浏览 6286 07-22

首搭图灵AI芯⽚ 小鹏G7上市 19.58万起

网易汽车 浏览 8102 07-05

违法违规收集个人信息!这两家券商APP在列

券商中国 浏览 1009 07-15
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11