关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro908人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

你看到的不是奔驰纯电CLA,而是汽车的下一个20年

1号车盟 浏览 295

“董宇辉”,被转让

浙江之声 浏览 12019

混战升级!编剧赵冬苓力挺王阳遭围攻

萌神木木 浏览 11015

朝鲜空军庆祝活动 现场2名女飞行员示范飞行

看看新闻Knews 浏览 286

过了40岁穿衣别再太随便,学会这些时尚又实用的技巧,更显气质

Yuki时尚酱 浏览 12818

在国家德比爆发冲突后,亚马尔社媒取消对卡瓦哈尔的关注

懂球帝 浏览 817

美国男篮9人名单远逊4年前:0巨星被批不如加拿大 再创历史最差?

颜小白的篮球梦 浏览 16342

才发现“打底裤”居然这么时髦!掌握这3点精髓,谁穿谁好看

静儿时尚达人 浏览 13250

黄奕钟丽缇女儿同框,中西方妆造差距超明显

一盅情怀 浏览 991

“China Shopping”热展现中国制造全球吸引力

环球网资讯 浏览 1110

多地惊现“辛巴客服形式诈骗”,疑似购物信息被泄露

趣看热点 浏览 25913

偷学生信息搞颜值打分,“小扎模仿秀”演砸了

新京报 浏览 15347

30万分手费vs3000万求婚钻戒:一个前妻的修养

Yuki女人故事 浏览 214

美可能供乌战斧导弹 俄方:或成俄乌局势重大升级节点

财联社 浏览 1060

"商务部公告附件首次改为wps格式"不实 至少5年前已用

极目新闻 浏览 5243

郭富城爱驹赛马跑第一赢百万奖金,紧搂方媛庆祝

娱絮 浏览 16557

恩里克:球队今天展现的态度我很喜欢,赛季结束前我们不能放松

直播吧 浏览 11932

小S许雅钧带女儿度假,穿透视装仍被无视太卑微,一家5口都很开放

缘木不求娱 浏览 12673

别太担心美股开年的疲软,这可能只是“宿醉”

巴伦周刊 浏览 12612

上海男子出门频频裸露臀部太辣眼睛 女邻居崩溃了

看看新闻Knews 浏览 31986

波音737 MAX系列事故调查未了 新型客机交付恐再延迟

新华社 浏览 11237
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1