关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011194人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

狗狗被宠物店放烘干箱一小时活活烤死 门店谎称是中暑

极目新闻 浏览 1932 07-24

飞抵双流机场后“打甩手”去看世运会比赛

爱看头条 浏览 9661 08-11

告别“躺赚” 消金与小贷走向殊途

北京商报 浏览 223 01-16

搭电混系统 吉利雷达金刚EM-P将5月28日上市

车质网 浏览 501 05-21

曲刚:对球员们的表现总体上满意,但比赛的结果并不理想

懂球帝 浏览 350 09-21

专家:俄乌“和平计划”应触及冲突发生深层原因

环球网资讯 浏览 240 12-02

官方:法国后卫泰奥-佩勒纳尔加盟梅州客家,穿5号球衣

懂球帝 浏览 207 01-27

谁说每年都要穿新衣服?准备一些基础款,百搭耐看又不过时

静儿时尚达人 浏览 40 05-05

北芯生命:核心产品与新技术竞争关系陷罗生门 自称“金标准”背后技术路径现疑云

金证研 浏览 446 08-29

冬天想穿得轻盈保暖,看看这些大衣穿搭,大方舒适又有高级感

静儿时尚达人 浏览 221 12-18

多地掀起快递"反内卷":抵制"8毛发全国"的极端低价

南方都市报 浏览 2792 08-14

姑姑霸占侄女房子住10年 现场手撕协议:你爱住哪住哪

极目新闻 浏览 523 08-17

女子称在地铁上和老太抢座被"打伤" 起诉索赔1.5万元

红星新闻 浏览 459 09-09

三星扩大 Tizen OS 授权计划,加速全球智能电视布局

IT之家 浏览 1309 07-12

将尽快召回员工!停产1个月的宁德时代宜春锂矿预计很快复产!

证券时报e公司 浏览 410 09-10

《树影迷宫》给10位演员演技排个名

皮皮电影 浏览 239 11-11

特朗普给欧尔班手写回信披露 称对乌军行动"非常愤怒"

环球网资讯 浏览 358 08-24

医疗器械一哥要第三次上市了,迈瑞医疗的上市路该咋看?

江瀚视野 浏览 10027 08-07

"北溪"事件重要嫌疑人落网 管道遭四枚定时炸弹破坏

每日经济新闻 浏览 533 08-25

乌媒称乌方袭击克里米亚大桥 俄官方暂未回应

环球网资讯 浏览 5210 06-04

外卖大战下,今夏的奶茶“格外甜”

斑马消费 浏览 407 09-09
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11