关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者642人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

持续“押注”,上海在打什么算盘?

城市进化论 浏览 16445

被Meta点醒,苹果砍掉廉价头显,押注智能眼镜

网易科技报道 浏览 1006

林更新在香港冒雨跑步,又高又瘦很自律,腿上有一块淤青 ​​​

素素娱乐 浏览 11070

仝卓表弟获救了!照片曝光头发已被剃光,从求助到救出不到24小时

萌神木木 浏览 382

国内降价日本涨价,比亚迪到底是怎么盘算的?

二师兄玩车 浏览 12090

哈马斯官员:未收到重启加沙停火谈判通知

环球网资讯 浏览 10800

普京:国家想发展 每家至少生三个孩子

红星新闻 浏览 79853

从狂飙到猛踩刹车,动力电池行业洗牌加剧

第一财经资讯 浏览 19133

《许我耀眼》很爽,但要小心

时尚COSMO 浏览 1054

贝克汉姆家闹出大瓜!豪门大戏再添新章

观察鉴娱 浏览 1484

歼20不再藏着掖着:就算看的到也追不上

浏览 10890

记者:埃尔内尼是降薪续约,球员本人非常乐意接受这样的新条款

直播吧 浏览 19043

海外投资者争做基石!摩根大通:中国药企全球竞争力提升,投融资持续活跃

券商中国 浏览 851

政客名流纷纷“躺枪”,本土定制真假难辨,印度担忧“深度伪造”视频潮

环球网资讯 浏览 12994

拜登称以色列提出新的三阶段停火方案

央视新闻客户端 浏览 11054

提及俄乌问题 俄外长与美德等国外长发生激烈争吵

环球网资讯 浏览 19246

枢密院十号:天上的宇航员都回不来了,波音还在“丧事喜办”

环球网资讯 浏览 10873

开场就是3起离奇命案,比春节大片还好看!芒果台这波输出,成了

皮皮电影 浏览 12745

现场视频!“东风快递员”随时保持即停即打能力状态

环球网资讯 浏览 19305

宋仲基官宣妻子产下男婴 晒父子牵手照

扒虾侃娱 浏览 16173

这一天,坐在陈宝国身边的刘德华,展现了他在内娱的江湖地位

不八卦会死星人 浏览 12467
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1