关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11195人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“男女通吃”的工装裤,你不会还没一条吧

《瑞丽服饰美容》 浏览 20505

京东要向拼多多“砍一刀”?商家卷入百亿补贴大战

第一财经资讯 浏览 19821

笑不活了!颜丙燕谈小20岁男友,没想到评论区句句皆是梗

温柔娱公子 浏览 919

秋天别错过卫衣搭长靴 少女感兼具少年感

巧百搭 浏览 15101

辛巴下跪宣布复出,糖水燕窝事件之后他还能东山再起吗?

趣看热点 浏览 26058

6月10日丨深圳大事件

深圳微时光 浏览 16584

科学家证实,中国“天眼”锁定F22绝非意外

浏览 11040

为什么刘诗诗、倪妮这么有气质?体态赢了

LinkFashion 浏览 13265

今夏就要穿“ 豆腐鞋 ”,巨火巨显腿长 !

In风尚 浏览 15737

NBA战报:尼克斯134-98狂胜篮网取NBA4连胜,唐斯28+12+2

懂球帝 浏览 673

单反绝唱:优雅技艺在职业网坛的黄昏

网球之家 浏览 669

巴特勒谈绝杀:很容易 知道公牛最后一回合来不及布防

直播吧 浏览 12926

尚界H5月销万台,成绩合格了吗?

邱小铖 浏览 108

与大14岁男友结婚且双喜临门?黄心颖晒照吐心声

高能E蓓子 浏览 14769

10年期国债收益率迭创新低:货币宽松预期高企,资本弃股投债

21世纪经济报道 浏览 12916

GPT Store正式上线:超300万个应用可玩!网友:我要变富了

量子位 浏览 12769

模速为核 智领未来——徐汇人工智能产业的蝶变之路|“十四五”答卷

上观新闻 浏览 299

旅行焕新价8.39万起 BJ30旅行家正式上市 新增7座布局

网易汽车 浏览 1537

基差走扩,市场中性策略收益可以把握吗?

私募荟 浏览 12497

泽连斯基的冬天:美乌军事策略似乎出现分歧

金羊网 浏览 13281

52岁黎姿:颜值身材依旧,现身香港街头做善事!

娱乐团长 浏览 13414
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1