参考指南

随着大模型的发展，大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务，在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而，现有的测试基准主要集中在单智能体或纯文本环境，缺少多智能体、多模态的大模型智能体测试基准，因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench（Visual Strategic Bench）, 以用于评估视觉语言模型（VLM，Vision-Language Model）在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型？因为现实世界就是一个多智能体的环境，这样的环境给大模型的能力提出了新的挑战。

首先，在推理方面，因为多智能体环境的结果依赖于所有智能体的联合动作，所以智能体不仅需要自己能选择合理的动作，还要能够预测其他智能体的动作，即 theory of mind 的推理能力，才能在多智能体环境中取得好的效果。

其次，在决策方面，因为多智能体环境中存在智能体之间的合作和竞争，同时各智能体的策略和行为也在不断变化，使得环境变得非平稳，从而要求智能体要在不确定性更强的环境中优化自己的长期目标，对其决策能力提出了更大的挑战。

清华汪玉团队提出VS-Bench测试基准，能评估VLM多项能力

43岁阮经天...

金发女郎同时...

单月首次突破...

多地推出“华...

WAIC前线...

＂郑州人民公...

17岁少年网购虚假退货＂薅羊毛＂获利超400万被判刑6年

稳了，“毁容式”出演县长的胡歌，已经走上了演员的“上坡路”

情绪消费、质价比、出海等赛道仍有机会，AI破局智慧零售

狗狗被宠物店放烘干箱一小时活活烤死门店谎称是中暑

飞抵双流机场后“打甩手”去看世运会比赛

告别“躺赚” 消金与小贷走向殊途

搭电混系统吉利雷达金刚EM-P将5月28日上市

曲刚：对球员们的表现总体上满意，但比赛的结果并不理想

专家：俄乌“和平计划”应触及冲突发生深层原因

官方：法国后卫泰奥-佩勒纳尔加盟梅州客家，穿5号球衣

谁说每年都要穿新衣服？准备一些基础款，百搭耐看又不过时

北芯生命：核心产品与新技术竞争关系陷罗生门自称“金标准”背后技术路径现疑云

冬天想穿得轻盈保暖，看看这些大衣穿搭，大方舒适又有高级感

多地掀起快递＂反内卷＂：抵制＂8毛发全国＂的极端低价

姑姑霸占侄女房子住10年现场手撕协议：你爱住哪住哪

女子称在地铁上和老太抢座被＂打伤＂起诉索赔1.5万元

三星扩大 Tizen OS 授权计划，加速全球智能电视布局

将尽快召回员工！停产1个月的宁德时代宜春锂矿预计很快复产！

《树影迷宫》给10位演员演技排个名

特朗普给欧尔班手写回信披露称对乌军行动＂非常愤怒＂

医疗器械一哥要第三次上市了，迈瑞医疗的上市路该咋看？

＂北溪＂事件重要嫌疑人落网管道遭四枚定时炸弹破坏

乌媒称乌方袭击克里米亚大桥俄官方暂未回应

外卖大战下，今夏的奶茶“格外甜”