关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:0187人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

续航与智能双重跃升 阿维塔06增程版19.49万元起

网易汽车 浏览 213 08-29

2027年!关键技术将取得突破

中国基金报 浏览 2755 08-10

男篮热身赛再挖奇兵!雷蒙防守奠定胜局,进攻把握三分,太香了!

篮球资讯达人 浏览 8994 07-30

问界M7全新黑白车色官图发布,提供黑曜套件选配

皆电 浏览 953 08-06

何超莲评论区沦陷!跟窦骁结婚后态度变化大,遭讨伐骗婚功利心重

萌神木木 浏览 103 10-21

Meta推出Transformer与Mamba混合AI架构

科技行者 浏览 56 11-04

滴滴自动驾驶:多维度发力,迈入爆发前夜

环球网资讯 浏览 585 07-14

媒体:阅兵端出超高声速导弹"满汉全席" 相当令人震撼

新民周刊 浏览 204 09-05

重新定义边界,吉利全域安全进入 2.0 时代

网易汽车 浏览 2 12-14

重磅!曝辽宁交易获顶薪姜宇星 送赵率舟+租借刘雁宇去吉林

醉卧浮生 浏览 287 08-20

维权女车主“赢”特斯拉

电动知家 浏览 192 09-17

比卢普斯律师声明:他是个正直的人,不会用自己的名誉冒险

懂球帝 浏览 81 10-24

乌克兰将向美国买1000亿美元武器 美反对乌加入北约

总台环球资讯 浏览 311 08-20

官方:米兰签下热那亚后卫德温特;据悉转会费2000万欧

懂球帝 浏览 8824 08-14

2000多年楚王大墓被盗 "摸金校尉"在村里租房3年寻墓

上游新闻 浏览 90 10-25

世界人工智能大会“首发首秀”集中亮相 荣耀推出首个GUI开源大模型

封面新闻 浏览 2385 07-27

曼联球员年薪榜:卡塞米罗2100万欧第一,B费&桑乔位列二三

懂球帝 浏览 237 08-25

谢宏的贝因美控制权危机,源于十年前埋下的隐患

无冕财经 浏览 304 08-11

南宁正在批量制造微短剧:谁更需要流量?

时代周报 浏览 266 08-19

AMD宣布将重启对华出口AI芯片

财联社 浏览 1874 07-16

特朗普拒批4亿美元对台军援 台当局“不予评论”

参考消息 浏览 194 09-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11