参考指南

随着大模型的发展，大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务，在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而，现有的测试基准主要集中在单智能体或纯文本环境，缺少多智能体、多模态的大模型智能体测试基准，因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench（Visual Strategic Bench）, 以用于评估视觉语言模型（VLM，Vision-Language Model）在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型？因为现实世界就是一个多智能体的环境，这样的环境给大模型的能力提出了新的挑战。

首先，在推理方面，因为多智能体环境的结果依赖于所有智能体的联合动作，所以智能体不仅需要自己能选择合理的动作，还要能够预测其他智能体的动作，即 theory of mind 的推理能力，才能在多智能体环境中取得好的效果。

其次，在决策方面，因为多智能体环境中存在智能体之间的合作和竞争，同时各智能体的策略和行为也在不断变化，使得环境变得非平稳，从而要求智能体要在不确定性更强的环境中优化自己的长期目标，对其决策能力提出了更大的挑战。

清华汪玉团队提出VS-Bench测试基准，能评估VLM多项能力

刘亦菲内衣照...

朱立伦表态交...

最新世界50...

男网又一35...

全球首艘！韩...

29.98万...

马斯克的Grok AI聊天机器人再现严重故障：混淆邦迪海滩枪击事件

国产运动鞋服品牌上半年“成绩单”揭晓细分品类“加速跑”

网传苹果不满折叠屏iPhone现行方案，最早发布时间将在2026年

名企老板娘称老公四婚五娃＂要为夫复仇＂公司再回应

冯绍峰被曝新恋情，女方周麟嘉神似赵丽颖？

电商助力四川会东石榴从深山走向全国市场

特朗普改国防部为战争部张维为：反映出美国的不自信

货拉拉跑腿骑手取走万元苹果手机后失联手机店主发声

不见特斯拉跟风国产？Model YL以六座SUV身份入局

张本智和：医疗暂停&更换衣服在内的规则，都需要重新审视

快递费上涨！广东、浙江电商客户单价率先调价，有商家每月多支出3万元｜红星调查

特朗普与普京将在阿拉斯加会晤泽连斯基被指可能参会

中国又一款六代机被美媒公开：或专为航母打造舰载机

上海加快布局智能化类器官赛道，亚洲首台套体外模型智能化系统发布

女婿杀岳母后人间蒸发切断与子女亲友所有联系潜逃

英媒：切尔西已开始和阿贾克斯谈哈托，相信能以约4000万镑签下他

普京指挥俄军战略核力量综合演习

推广中奖名单-更新至2025年10月25日推广

到底什么人还在买油车？终于我悟了

佩通坦含泪谴责柬方：军方做好准备当前不是谈判阶段

牛弹琴：美国现在最火热的话题成了特朗普执政的噩梦

岚图冲刺港股0融资：车型“偏科”，年销目标前9月完成48.5%

上市就官降3万新款锋兰达变智能了双擎和燃油版如何选？

《白衣公卿》今日开机龚俊双面身份赴爽燃复仇路