关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者880人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

捐红十字会羽绒服后又被对方捐回公司所在地 企业回应

封面新闻 浏览 85585

劝中国原谅日本的黄循财被扒出家族史 祖父靠日军吃饭

博览历史 浏览 4962

欧盟和美国计划对中国产电动车征收更严厉关税

盖世汽车 浏览 12334

登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代

新智元 浏览 1030

卡塔尔和以色列官员就重启停火谈判会晤

潇湘晨报 浏览 13350

莫迪对中国战略曝光,印度亮出新打法

浏览 10955

朱桢二胎得子取名Jerry朱桢发文官宣Jerry的到来,晒甜蜜合照

趣看热点 浏览 26373

传奇球星保罗罗西去世,曾攻入6球为意大利拿下世界杯冠军

趣看热点 浏览 26344

Chatgpt涉嫌信息盗窃被起诉,被要求赔偿30亿美元

36氪 浏览 15526

阿维塔求变:抱紧华为、告别个性走向大众

经济观察报 浏览 421

韩国宣布由韩企众筹为日本罪行埋单后 日本得寸进尺

新民晚报 浏览 102684

赏叶季人生照片拍摄指南.PDF

时尚COSMO 浏览 707

乌国家科学院人口研究所:乌人口规模或将下降三成

红星新闻 浏览 108

宋佳穿黑色丝袜搭配风衣变身街头女王

潮人方法论 浏览 16301

零跑:造车新势力中的异数

智驾网 浏览 10852

男子捉奸收情夫2.5万获刑案再审 当庭发问"该怎么办"

潇湘晨报 浏览 75891

港媒:蔡英文一举杯敬酒 台商心里直打哆嗦

直新闻 浏览 81185

千亿巨头奖励员工21枚黄金键帽 空格键重35克价值近4万

每日经济新闻 浏览 6565

17岁李嫣穿着短裙在意大利度假,身材变化比较大

素素娱乐 浏览 12664

马祖拉:不能被东欧打崩心态 东决对手长2分投到60%该放还得放

直播吧 浏览 10872

苹果头显遇“麻烦” 华为四年前已注册Vision Pro商标

金融界 浏览 16496
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1