您现在的位置是:たしろしんじ(たしろ伸治)网 > 热点
比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
たしろしんじ(たしろ伸治)网2025-02-28 20:13:49【热点】7人已围观
简介本文探究了 Monarch Mixer (M2) ,这是一种在序列长度以及模子维度上都是次二次的新架构,而且在今世减速器上具备很高的硬件功能。从 BERT、GPT 以及 Flan-T5 等语言模子到
本文探究了 Monarch Mixer (M2) ,更好更强这是更好更强一种在序列长度以及模子维度上都是次二次的新架构,而且在今世减速器上具备很高的更好更强硬件功能。
从 BERT 、更好更强GPT 以及 Flan-T5 等语言模子到 SAM 以及 Stable Diffusion 等图像模子 ,更好更强Transformer 正以所向无敌之势席卷这个天下,更好更强但人们也不禁会问:Transformer 是更好更强仅有抉择吗?
斯坦福大学以及纽约州立大学布法罗分校的一个钻研团队不光为这一下场给出了招供谜底,而且还提出了一种新的更好更强替换技术:Monarch Mixer。克日,更好更强该团队在 arXiv 宣告了相关论文以及一些魔难点模子及磨炼代码 。更好更强顺带一提,更好更强该论文已经落选 NeurIPS 2023 并取患上 Oral Presentation 资历 。更好更强

论文地址:https://arxiv.org/abs/2310.12109
代码地址:https://github.com/HazyResearch/m2
该措施去掉了 Transformer 中高老本的更好更强留意力以及 MLP,代之以富裕展现力的更好更强 Monarch 矩阵,使之在语言以及图像试验中以更低的更好更强老本取患了更优的展现 。
这并非斯坦福大学第一次提出 Transformer 的替换技术 。往年六月该校的另一个团队还曾经提出过一种名为 Backpack 的技术 ,参阅机械之心文章《斯坦福磨炼 Transformer 替换模子 :1.7 亿参数,能除了偏 、可控可批注性强》 。尽管,这些技术要取患上真正的乐成,还需要钻研社区的进一步魔难并在运用开拓者手中酿成着实好用的产物 。
下面咱们看看这篇论文中对于 Monarch Mixer 的介绍以及一些试验服从 。
论文介绍
在做作语言处置以及合计机视觉规模,机械学习模子已经能处置更长的序列以及更高维度的表征,从而反对于更长的高下文以及更高的品质。可是 ,现有架构的光阴以及空间重大性在序列长度以及 / 或者模子维度上呈二次削减方式,这会限度高下文长度并提升扩展老本 。举个例子,Transformer 中的留意力以及 MLP 会随序列长度以及模子维度呈二次扩展方式 。
针对于这一下场 ,斯坦福大学以及纽约州立大学布法罗分校的这个钻研团队宣称找到了一种高功能的架构,其庞漂亮随序列长度以及模子维度的削减是次二次的(sub-quadratic)。
他们的钻研灵感来自 MLP-mixer 以及 ConvMixer;这两项钻研审核到 :良多机械学习模子的运作方式都是沿序列以及模子维度轴对于信息妨碍混合,而且它们每一每一对于两个轴运用了单个算子。
追寻展现力强 、次二次且硬件功能高的混合算子的难度很大。举个例子 ,MLP-mixer 中的 MLP 以及 ConvMixer 中的卷积都颇具展现力,但它们都市随输入维度二次扩展。近期有一些钻研提出了一些次二次的序列混合措施,这些措施运用了较长的卷积或者形态空间模子 ,而且它们都市用到 FFT ,但这些模子的 FLOP 运用率很低而且在模子维度方面依然是二次扩展 。与此同时 ,不损品质的浓密密集 MLP 层方面也有一些颇具后劲的妨碍 ,但由于硬件运用率较低,某些模籽实际上可能还比密集模子更慢。
基于这些灵感,这个钻研团队提出了 Monarch Mixer (M2) ,其运用到了一类富裕展现力的次二次妄想化矩阵:Monarch 矩阵。
Monarch 矩阵是一类泛化了快捷傅立叶变更(FFT)的妄想化矩阵,而且钻研表明其涵盖了规模普遍的线性变更,搜罗哈达玛变更 、托普利兹矩阵 、AFDF 矩阵以及卷积 。它们可经由火块对于角矩阵的积妨碍参数化,这些参数被称为 Monarch 因子,与部署交织。
它们的合计是次二次扩展的:假如将因子的数目设为 p,则当输入长度为 N 时,合计庞漂亮为
很赞哦!(983)
相关文章
- 曼彻斯特双雄一悲一喜,“蓝月”憾负维拉,“红魔”力克“蓝军”被老虎舔一下有什么下场?看到这块冰块,瞬时起了一身鸡皮疙瘩
- 劳队轰5球超吉鲁意甲第一!国米连胜暗藏隐患,明夏卖掉恰球王?
- 不愧是华为,Mate60Pro手机壳里潜在芯片,网友:299元真不贵!
- 留在密尔沃基?名记:雄鹿向字母哥提供3年顶薪条约
- 浙江队5人遭禁赛!亚足联公布亚冠罚单,武里南造冲突者逃过处罚又一领土回归中国版图,面积4.7平方千米,五处竖界碑宣告主权
- 韩旭全场15中6,罚球2中1患上
- 原创 三连胜+0丢球登顶意甲!国米完美开局冲击本季冠军,火爆状态迎接米兰德比
- 睁开最快的ISV生态中,用友又退出一条“纵贯线”
- 原创 辽篮争冠三喜临门,CBA总冠军先生驰援,赵继伟弗格迎帮手
- 法尔克:去年为了加盟拜仁,特尔坚持了部份人为
热门文章
站长推荐
友情链接
- 尔冬升博客
- 刘心悠抖音
- 杨怡Instagram
- 胡因梦Instagram
- 赵又廷官网
- 狄波拉Weibo
- 吴倩莲官网
- 苏有朋主页
- 唐嫣主页
- 周润发Twitter
- 吴宗宪官网
- 绿皮书Instagram
- 吴宗宪博客
- 张艺兴Twitter
- 信Instagram
- 萧敬腾微博
- 任贤齐主页
- 沉默的羔羊微博
- 李小冉Facebook
- 李一桐Instagram
- 亚运会开幕式上,叙利亚总统夫人用的甚么手机?华为赶紧布置
- 《好声音》太惊喜了!竟然还有爵士歌手60岁叶童对比69岁赵雅芝,自然老去和医美老去的差距真的一目了然
- 伊拉克一婚礼火灾组成至少100人降生 “火球”从天而降 人群四散奔逃
- 清华系团队宣告研收回千亿参数“制药版ChatGPT”
- 中国男篮无缘纵贯奥运!日本取患上亚洲仅有位额
- 英媒:波切蒂诺以及穆德里克玩“横梁挑战”以增强后者定夺
- 30天30队:文班亚马助马刺开启新时代彻底原形毕露!五位“国家一级演员”被除名,老戏骨也难翻身
- 哈登利拉德离队终现曙光 一笔三方生意可解所有难题?
- 全网嬉笑!“飞哥在东莞”因伪造故事被判刑
- 狗巴迪勇士赛北京站超600组人犬搭档完成挑战以色列监狱“拉皮条”事件:女狱警供犯人玩乐,恶心长官拉皮条。