关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11194人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

黄晓明带新女友去酒吧 女方穿吊带好身材不输杨颖

不八卦会死星人 浏览 16261

大场面!王鹤棣泰国录《跑男》 超多粉丝接机围观

笑猫说说 浏览 17034

科利莫尔:热刺需要速度和活力,凯尔特人的古桥亨梧值得赌一把

直播吧 浏览 16527

纯电续航345km 小鹏X9增程版将于四季度上市

车质网 浏览 919

王晶大谈力捧谢霆锋原因,狄波拉是恩人,谢贤更是讲义气

温柔娱公子 浏览 932

美记:开拓者明确表示不会交易亨德森或夏普

直播吧 浏览 15389

达沃斯论坛AI论剑:大力投资核聚变与健康创新

第一财经资讯 浏览 12823

好看显瘦的本质就是清爽简约,记住这6个核心搭配思路!

日系志Yumi 浏览 13431

歼-15舰载战斗机呼啸升空 看战机高速穿山谷

环球网资讯 浏览 1749

媒体:布林肯访华前与秦刚通话 中方提前给其划出底线

新京报评论 浏览 91325

农村危房翻建审批咋这么难?人民日报记者实地调查

上观新闻 浏览 8

丰田汽车工会欲获得相当于7.6个月工资的奖金,或要求大幅加薪

盖世汽车 浏览 12444

上海9旬老太举报保姆虐待 儿媳:保姆逼写自愿给钱字据

极目新闻 浏览 92889

初中学历的男子冒充富二代跟20多名女性交往,其中有一位女性被诈骗900多万

趣看热点 浏览 1025794

Robotaxi发生伤人事故 哈啰出行自动驾驶业务暂停运营

界面新闻 浏览 17836

乌外长:美已邀乌再赴美继续和平谈判

上观新闻 浏览 227

真要卖了!中国海军052D亮相中东防务展"推销"自己

军武速递 浏览 94217

【现场】球场简陋无碍“贴脸开大”,巴列卡诺闷平皇马

体坛周报 浏览 670

光年之外归美团,但大模型并非遍地好兄弟

北京商报 浏览 15611

江西通报考生迟到37分钟进入考场:因暴雨受困跑步到达

江西省教育考试院 浏览 91236

一艘英国油轮遭胡塞武装袭击 上面装着俄罗斯燃料

财联社 浏览 12711
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1