关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:01294人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

阿里纳斯:詹姆斯入湖时背负的压力是最大的 科比球迷不太接受他

直播吧 浏览 524 08-11

美媒评21世纪七大奖项:詹姆斯获三项大奖 马刺成员赢得其余四项

罗说NBA 浏览 412 08-20

她自己嫌弃的儿媳妇让前夫主动想“上门求原谅”

秋姐居 浏览 370 09-10

金山云(KC.US)携6大AI创新成果亮相WAIC

智通财经 浏览 2900 07-27

“穿”上丝巾的鞠婧祎,好有生命力

时尚COSMO 浏览 4779 08-04

官方:“赣超”南昌队更换主场,新主场为江西省奥体中心

直播吧 浏览 402 09-10

朝鲜举行盛大阅兵式 高清大图来了

新华社 浏览 262 10-12

马斯克称新款特斯拉Roadster是“超越汽车范畴的特殊产品”

IT之家 浏览 356 09-19

lifeme魅蓝H1 Pro头戴式降噪耳机「Hi-Fi版」1月15日发布

IT之家 浏览 195 01-15

杀7个月侄女凶手弟弟:案发前他让我接走孩子 我没理会

环球网资讯 浏览 3570 08-07

“锂王”炒股,赚了111万,赔掉2000亿

大猫财经Pro 浏览 132 01-07

未来的轮胎,是汽车重要的数据入口?

盖世汽车 浏览 348 09-25

山姆有机大豆被指“降质不降价” 山姆回应

扬子晚报 浏览 5319 07-25

香港爱马仕大秀,古天乐面相变了

杨仔述 浏览 353 09-20

奔驰C级纯电来了,屏幕超大,续航762km,国产年内发布

汽车公告板 浏览 76 04-22

拒绝对涉案做出反省 内塔尼亚胡请求特赦遭强烈抗议

环球网资讯 浏览 222 12-02

多股应声涨停!A股中报行情如火如荼 13家上市公司净利最高同比预增超800%

财联社 浏览 9602 07-13

37°C!二次元奔赴全球首个“痛岛”,小岛医疗站助玩家满血逛展

上观新闻 浏览 4279 08-10

落地“好房子”,龙湖2025年交付近7万套品质房源

YOUNG财经 浏览 219 01-15

“大衣+毛衣”今年冬天又火了,这样穿时髦又高级!

LinkFashion 浏览 164 12-04

专为中国道路打造!宝马联合Momenta推出新一代智能驾驶系统

My车轱辘 浏览 3771 07-15
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11