参考指南

随着大模型的发展，大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务，在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而，现有的测试基准主要集中在单智能体或纯文本环境，缺少多智能体、多模态的大模型智能体测试基准，因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench（Visual Strategic Bench）, 以用于评估视觉语言模型（VLM，Vision-Language Model）在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型？因为现实世界就是一个多智能体的环境，这样的环境给大模型的能力提出了新的挑战。

首先，在推理方面，因为多智能体环境的结果依赖于所有智能体的联合动作，所以智能体不仅需要自己能选择合理的动作，还要能够预测其他智能体的动作，即 theory of mind 的推理能力，才能在多智能体环境中取得好的效果。

其次，在决策方面，因为多智能体环境中存在智能体之间的合作和竞争，同时各智能体的策略和行为也在不断变化，使得环境变得非平稳，从而要求智能体要在不确定性更强的环境中优化自己的长期目标，对其决策能力提出了更大的挑战。

清华汪玉团队提出VS-Bench测试基准，能评估VLM多项能力

武警部队组织...

从50天4场...

长安汽车上半...

生产全靠外包...

三种版本可选...

成都锦里古街...

女子天津港240万买车变＂租车＂ 10万意向金遭车行没收

国家统计局：5月各线城市商品住宅销售价格环比下降

女子用＂AI流浪汉＂照片整蛊丈夫引来警察网友表示不解

2名以方被扣押人员失联卡桑旅要求以军暂停空袭24小时

乔杉官宣妻子怀上三胎，携两女儿陪太太拍孕照

90后占比近六成，小鹏X9超级增程成年轻家庭首选

日本开始一项＂史无前例＂行动：派多架战斗机前往欧洲

安卓机器人变透明！5月13日揭晓，Android史上最重要年份之一

小鹏 P7+ 汽车累计交付 8 万台

全球能源循环计划亮相慕尼黑车展，宁德时代、奔驰、宝马共同参与

2026年春晚分会场官宣周深肖战刘宇宁令人期待

梁小龙一生太精彩！曾被封杀20年，公开承认出轨，还跟周星驰反目

东风日产首款插混轿车N6官宣：21.1kWh“同级最大”电池，Q4见

千亿梯媒巨头25亿巨额计提背后，监管“导火索”已引燃半年之久

50岁女性冬季穿衣指南：避开 2 大禁忌，这样得体又时髦

国庆狂销7套！中海大境实景示范区人气爆棚，热气球瞰湿地太震撼

连Win10都要停服了，那么多电脑该咋办？

德天空：大幅涨薪，努涅斯在利雅得新月每年将净赚1500万欧

你的高级感，烟管裤轻松搞定！

官方！福克斯因伤无缘中国行其老板库里中国行活动不受影响

夏天穿衣别发愁，多试试牛仔单品和连衣裙，简单大方又减龄

达洛特：之前和姆伯莫库尼亚交手头疼不已，非常高兴他们加盟

TVB绿叶演员生存报告

43岁李宗伟谈羽联改革：若改用15分制，说不定我也会复出