关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro910人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

赢得认可!一位加拉塔萨雷球迷为自己新出生的孩子取名伊卡尔迪

直播吧 浏览 16306

国产车市场占有率超过60% 合资车降价也不香了?

汽车扒壹扒 浏览 10898

排队两小时买奶皮子糖葫芦,值吗?

时尚COSMO 浏览 680

新能源车血战到底:理想稳了,蔚来悬了

钛媒体APP 浏览 18272

短上衣的最佳搭配当然是高腰裤了

In风尚 浏览 19130

双片闪耀,北京跨年放映今日开票!

幕味儿 浏览 217

接近量产状态 小米YU7 GT再次现身纽北赛道

车质网 浏览 914

AI设计出可杀灭细菌的功能性病毒,专家呼吁谨慎推进

IT之家 浏览 1716

沪电股份:前三季度净利润同比增长47.03%

网易财经 浏览 795

首次写入政府工作报告! 商业航天发展按下“加速键”

海外网 浏览 12130

2024,当中国开始“卷”民营火箭

观察者网 浏览 13024

德国外长在广州表态:看到与中国建设性合作的机会

环球时报国际 浏览 16721

西班牙诞生世界首个带新冠病毒抗体的婴儿,医生是这样说的

趣看热点 浏览 969439

特朗普:达不成协议 哈马斯将遭“彻底消灭”

环球时报新闻 浏览 973

已攻入24球,广西恒宸费尔南多打破中乙球员单赛季进球纪录

懂球帝 浏览 947

最好看的羽绒服,都满足这几点

Yuki女人故事 浏览 241

波兰外交部称有炮弹击中该国驻乌克兰大使馆

极目新闻 浏览 1504

女人去油这件事,白衬衫最好使

Yuki女人故事 浏览 11538

美论坛:为什么中国明知很容易被摧毁 仍在南海建基地

博览历史 浏览 4196

台积电之后 韩国芯片工厂也关停光刻机了:仅一半产线运转

快科技 浏览 14240

美媒:美国即将批准向乌克兰提供陆军战术导弹系统

环球网资讯 浏览 15531
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1