关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者640人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

快讯!外媒:拜登发声明,称在澳加荷等国支持下,美英对胡塞武装“成功打击”

环球网资讯 浏览 12628

厉害了,宝马还在为60年前的老车生产零件

MOTO 浏览 12298

德容:梅西曾是我的偶像,对我来说他是史上最佳

懂球帝 浏览 990

阿姨遛狗被狗绳拽入电梯井 多处内脏破裂

极目新闻 浏览 5500

德佬:我本来不想让KK的团队得逞,但最终不得不把他卖掉

懂球帝 浏览 1745

今天 | 送别杨振宁!群众含泪相送!队伍望不到头!

天津广播 浏览 861

风扇网红小玉租70元婚纱,在出租屋与大鹏结婚

深析古今 浏览 1626

马斯克:下周将在X平台上直播特斯拉FSD驾驶系统V12版本

IT之家 浏览 14310

枭龙突防S-400:中械武器如何改写印巴冲突

浏览 4878

美政府停摆15天白宫放话要裁1万人 女法官颁令叫停

红星新闻 浏览 6248

“男人的衣柜”跨界卖水?

诗与星空 浏览 108

杭州启用AI交通管理机器人“杭行1号”;印尼洪灾和山体滑坡已致超600人遇难

上观新闻 浏览 295

东华测试寻求打开机器人领域新空间

爱集微 浏览 880

房产中介兼职送外卖:除了干中介 自己什么都不会

经济观察报 浏览 6648

夏季气息满满的粉绿配 青春活力满格!

编织人生官方 浏览 17027

去年全国出生人口902万人 比上年末减少208万人

中国网 浏览 77169

美媒:有偿收集情报 有多少美国记者在为CIA工作?

环球网资讯 浏览 19841

外媒:法国如今的这场危机 比2005年那场猛烈10倍

参考消息 浏览 92806

被指住宿环境差 广东一高校回应:没那么夸张 是误会

极目新闻 浏览 1094

男子开金店第1年卖了1000万:大专毕业 曾月入3000元

中国新闻周刊 浏览 81706

口碑爆棚,票房扑惨,最争议的大片来了

独立鱼 浏览 894
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1