关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11191人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

云南女大学生失联被传12万遭贩卖至缅北 本人发声

红星新闻 浏览 85805

中美达成共识让美豆农松口气 盼望中方订单快点来

环球网资讯 浏览 11744

嫦娥六号、载人航天、鹊桥二号……中国航天今年有这些看点

澎湃新闻 浏览 12904

瑞典200年没打过仗 军官警告"战争或爆发"引恐慌

环球时报国际 浏览 12990

大疆「摔跤」,影石「拱火」

豹变 浏览 1047

马斯克称新款特斯拉Roadster是“超越汽车范畴的特殊产品”

IT之家 浏览 1689

机构:预计2024年全球AI服务器将超160万台,同比增长40%

界面新闻 浏览 12473

东方财富实控人其实的妻子和父亲近期套现约93亿

YOUNG财经 浏览 1017

台"看守内阁"官员摆烂 媒体人:他们没把赖清德放眼里

海峡导报社 浏览 70488

军报披露 中央军委副主席何卫东再有新身份

政知新媒体 浏览 20135

男子独居寺庙28年 留女香客过夜后次日狂奔25公里报案

社会奇闻君 浏览 118646

一俄军用直升机在亚美尼亚被击落,阿塞拜疆表示这只是一起意外

趣看热点 浏览 25743

官员被双开 曾共事的原副市长与黑社会结成"干亲家"

上观新闻 浏览 94895

政法委书记梁野任上被拿下 一个月前曾露面

政知新媒体 浏览 64267

苏亚雷斯:有信心率领亚泰保级

体坛周报 浏览 1020

收起你的牛仔裤 早春穿这些连衣裙美极了!

蓓小西 浏览 19759

“全球坚韧船队”成员控诉遭辱:以色列虐待所有人

看看新闻Knews 浏览 1043

"网红局长"被嘲丑出圈后画风突变 官方:不必过分解读

封面新闻 浏览 105619

深圳海棠投资因多项违规遭监管责令改正,执行董事被出具警示函

红星资本局 浏览 19314

为什么你越保养,皮肤反而越没光?

时尚COSMO 浏览 941

古力娜扎最新大片 凌乱秀发挡不住美颜

深剖娱乐圈 浏览 17137
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1