关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:01945人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

男篮徐杰发声明:使他人怀孕为造谣!

胡侃社会百态 浏览 3681 08-11

徐瑛被通报:企业主自带食材和厨师到她家中为其烹饪

新京报 浏览 7181 07-26

今年娱乐圈最尬的一幕,赵露思给的

娱乐圈笔娱君 浏览 10015 08-06

主打家用泛越野 哈弗大狗PLUS售13.58万起

网易汽车 浏览 114 09-16

虞书欣丝毫不受风波影响,掉粉60万照常活动,9月无缝进组拍新戏

萌神木木 浏览 227 08-27

王家卫请正面回应是否剥削青年编剧

严肃八卦 浏览 103 09-26

点啥啥火,天风美女首席“吓得”散群!那些强得可怕的分析师们

深蓝财经 浏览 242 08-21

博主:曼联相信卡塞米罗已证明自己价值,愿与他续约至2027年

直播吧 浏览 114 09-11

对话IBM大中华区董事长陈旭东:IBM在中国的重点客户转向了民营企业和外资企业

网易科技报道 浏览 148 09-09

刘蓓:3婚2离,两度成为张若昀后妈?

说历史的老牢 浏览 222 08-18

居然智家官宣董事长汪林朋逝世,七千员工、百亿负债谁来接盘?

野马财经 浏览 9480 07-29

纳瓦罗决胜盘送蛋2-1击败斯瓦泰克,跻身中网女单八强

懂球帝 浏览 99 10-02

俄乌冲突升级 乌军一架米格-29战斗机失事飞行员死亡

每日经济新闻 浏览 228 08-24

3500万起拍的四合院撤销拍卖 代理人:可以先对外出租

极目新闻 浏览 9892 08-06

特朗普竞选新策略:硅谷大佬成关键助力

浏览 5864 07-14

宁德时代磐石底盘欧洲首秀 面向全球引入高效安全造车新范式

网易汽车 浏览 135 09-10

一名日本男子以间谍罪获刑12年 外交部介绍情况

北京青年报 浏览 2451 05-15

反击美国"变脸"普京即将公布神秘新武器 专家分析

环球网资讯 浏览 44 10-13

上海新开至乌兰巴托、塔什干、阿拉木图客运航线

极目新闻 浏览 1459 07-04

泰星利用中元节赚钱!推出定制套餐卖粉丝,被吐槽割韭菜没底线

萌神木木 浏览 164 09-02

宗馥莉,没有娃哈哈

斑马消费 浏览 65 10-13
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11