关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01295人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

林诗栋3-4张本智和无缘决赛!连扳3局后连丢2局,第7局局末太被动

篮球资讯达人 浏览 10555 07-13

中菲在黄岩岛硬碰硬 马科斯欲借中国之手办大事

沧海旅行家 浏览 442 09-17

《轻于鸿毛》定档,宋佳、佟丽娅双美争艳,对手戏张力十足

最爱酷影视 浏览 1963 07-29

降价30万,不是宝马仁慈了,而是被逼没办法

正在说车 浏览 226 01-05

为什么Claude Code 如此好?「以及如何在自己工作流中复刻Claude Code体验」

AI寒武纪 浏览 440 08-25

高调秀恩爱的杨子,没给黄圣依留一丝体面

新语爱八卦 浏览 489 08-19

老人骑电动车被撞后身亡 司机获刑:96.8公斤属机动车

红星新闻 浏览 5750 08-13

欧锦赛历史第六个三双!申京仅用26分钟就砍下15分10板10助三双

直播吧 浏览 429 09-10

或命名为瑞虎3L 奇瑞瑞虎T13T谍照曝光

车质网 浏览 152 12-04

劲爆!纪委直接入场,知名车企两高管办公室内被带走!

汽车工程师 浏览 218 12-29

萨莫拉诺:巴萨必须引导好亚马尔,从没听过梅西说皇马偷窃

懂球帝 浏览 255 11-06

杭州部分小区供水异常调查情况再通报:7人被处分

界面新闻 浏览 10348 07-24

委内瑞拉主帅告别:未能实现晋级世界杯目标,感谢大家的支持

直播吧 浏览 399 09-11

对话傅利叶CEO顾捷:人形是提升“交互有效性”的最优解?

蓝鲸新闻 浏览 1995 08-09

初秋美拉德风炸街!这样搭配也太绝了吧!

Yuki女人故事 浏览 316 08-31

特朗普就印巴停火"邀功"后 印方迅速放出消息

环球时报 浏览 8550 05-11

法律人士谈发蛤蟆汤照片收45万罚单:不构成广告行为

新京报 浏览 2076 07-15

水电概念集体走强 西藏天路、高争民爆等十余股涨停

网易财经 浏览 6739 07-21

1-5月中国汽车出口目的地TOP10:墨西哥、阿联酋前二

智车情报局 浏览 6174 07-09

印度与俄罗斯宣布:加强稀土合作

参考消息 浏览 1852 08-09

人类迄今拍摄到的距太阳最近图像公布,展现太阳风起源及逸散过程

IT之家 浏览 7652 07-13
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11