关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:0117人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

交大昂立、元道通信同日因信披违规被立案,股民可登记索赔

深蓝财经 浏览 5755 07-14

萨尔瓦多:我们临门一脚始终欠缺感觉,联赛还剩十轮依然拥有决心

直播吧 浏览 9105 08-10

硬地23连胜比肩四巨头!辛辛那提大师赛:辛纳2-0跻身16强

全景体育V 浏览 4314 08-12

特朗普再谈"萝莉岛客户名单"时松口风 甩锅司法部长

新民晚报 浏览 3106 07-18

理想汽车遭泄密!

电动知家 浏览 4380 07-14

黄晓明的体面全被叶珂造完!叶珂复出后的发言,再次让黄成为笑柄

娱乐圈笔娱君 浏览 2876 08-08

队报:不排除皇马在今夏转会窗的最后几天报价科纳特

懂球帝 浏览 6982 07-27

日本又炒作 宣称"首次发现"中国海军的新型援潜救生船

环球时报新闻 浏览 7055 07-27

39岁热依扎硬演17岁少女,我竟然0秒就接受了

动物奇奇怪怪 浏览 123 09-20

男子受教唆编造"政治迫害"故事 被反华组织给耍了

扬子晚报 浏览 198 08-15

零跑汽车创业十年:不是逆袭,而是专注者的胜利

晚点LatePost 浏览 3349 07-16

全球第二,欣旺达,再冲固态电池!

飞鲸投研 浏览 34 10-19

前意乙球员:皮耶罗曾用肘狠狠顶了我的胃 我怒火中烧喷了垃圾话

直播吧 浏览 103 09-26

“渣女裙”out!今秋这15条裙子正流行!

Yuki女人故事 浏览 95 09-28

宗馥莉因遗产被起诉?娃哈哈:家族内部事务与公司业务无关联

YOUNG财经 浏览 9304 07-14

会打扮的五六十岁女人:裙子过膝盖,衣服不紧衣,时髦还优雅

静儿时尚达人 浏览 1360 07-16

称小米汽车“全网被黑最惨”,雷军回应了这些热点问题

贝壳财经 浏览 83 09-26

葡萄育种的“科技加速器”:当基因芯片遇上AI表型组

中国科普博览 浏览 2706 07-17

至高省3万,奔驰品牌车型立享腾势全系车型置换补贴

网易汽车 浏览 209 08-16

德国军方举行演习被当地警方误判为“威胁” 遭警方实弹还击

环球网资讯 浏览 21 10-24

即时零售,改变电商格局

斑马消费 浏览 7904 08-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11