Lite Transformer with Long-Short range attention

Never_Jiao

2024-04-19 帮助1人

Lite Transformer with Long-Short range attention
2020年 arxiv文章

Abstract

Transformer在自然语言处理（例如机器翻译、问答）中变得无所不在；然而，它需要大量的计算来实现高性能，这使得它不适合受到硬件资源和电池严格限制的移动应用。本文提出了一种高效的移动NLP体系结构——Lite Transformer，以方便在边缘设备上部署移动NLP应用。关键的原语是长短距离注意 (LSRA)，其中一组头部专用于局部上下文建模（通过卷积），而另一组专用于长距离关系建模（通过注意）。这种专门化在三个成熟的语言任务（机器翻译、抽象摘要和语言建模）上给朴素transformer带来了一致的改进。在资源受限（500M/100M MAC）下，Lite Transformer 在 WMT’14 英语-法语上的性能分别比 Transformer 高 1.2/1.7 BLEU。Lite transformer使transformer基础模型的计算量减少了2.5 ×，BLEU评分降低了0.3。结合修剪和量化，进一步将Lite Transformer的模型尺寸压缩18.2倍。对于语言建模，Lite Transformer 在大约 500M MACs 时实现的 perplexity 比 Transformer 低 1.8。值得注意的是，用于移动NLP设置时，Lite transformer的性能比基于AutoML的演进transformer高出0.5个BLEU，而不需要花费超过250个GPU年的昂贵的体系结构搜索。代码已在https://github.com/mit-han-lab/lite-transformer提供。

Introduction

Transformer (Vaswani et al., 2017) 因其高训练效率和卓越的远距离依赖捕获能力而被广泛用于自然语言处理。在它们之上，现代最先进的模型，例如 BERT（Devlin 等人，2019），能够从未标记的文本中学习强大的语言表示，甚至在具有挑战性的问答任务中超越人类的表现。

然而，良好的性能是以高昂的计算成本为代价的。例如，单个transformer模型需要超过10G的Mult-Adds才能翻译一个只有30个单词的句子。如此极高的计算资源要求超出了智能手机和物联网等许多边缘设备的能力。因此，设计专门用于边缘实时NLP应用的高效快速transformer架构至关重要。自动网络结构搜索（Zoph&Le，2017；So等人，2019）是高精度模型设计的选择，但巨大的搜索成本（GPU小时和二氧化碳排放）引发了严重的环境问题（Strubell等人，2019），如图1b所示。

学新通
Fig.1 左：最近 NLP 模型的规模迅速增长，并在很大程度上超出了移动限制。右图：基于 AutoML 的 NLP 模型的搜索成本令人望而却步，其二氧化碳排放量几乎是汽车平均寿命排放量的 5 倍。

在本文中，我们专注于移动设备的有效推理，其中 MultAdd(MultAdd的意思是不是乘加) 的总数被限制在 500M 以下。减少transformer计算的一种直接方法是直接缩小嵌入大小。虽然它可以有效地减少模型大小和计算量，但同时也削弱了模型捕捉长短距离关系的能力。为此，我们系统地研究了 Transformer 的计算分解，并观察到计算（Mult-Adds）由前馈网络（FFN）主导。我们发现流行的瓶颈结构transformer块效率不高。然后，我们提出了一种新颖的长短程注意（LSRA）原语。 LSRA 权衡 FFN 中的计算以获得更广泛的注意力层。它扩展了瓶颈，为注意力层引入更多的依赖捕获能力，然后缩小嵌入大小以减少总计算量，同时保持相同的性能。 LSRA 没有一个用于“一般”信息的模块，而是专门用于对长距离和短距离上下文进行建模。受吴(2019b)等人的启发，LSRA 在并行分支中引入卷积以捕获局部依赖关系，以便注意力分支可以专注于全局上下文捕获。通过堆叠这个原语，我们为移动 NLP 应用程序构建了 Lite Transformer。

大量实验表明，我们的 Lite Transformer 模型在机器翻译、抽象摘要和语言建模三个语言任务上提供了显著改进。对于机器翻译，在 IWSLT 2014 German-English 上，它在 100M Mult-Adds 下比 Transformer 高 3.1 BLEU；在 WMT 2014 英语-德语上，它在 500M Mult-Adds下超过transformer 0.4 BLEU，在 100M Mult-Adds下超过 1.2 BLEU；在 WMT 2014 English-French 上，它还实现了对transformer的一致改进：在 500M Mult-Adds下 1.2 BLEU，在 100M Mult-Adds下 1.7 BLEU。此外，结合通用模型压缩技术 (修剪和量化)，我们的Lite transformer可以实现18.2 × 模型大小的压缩。对于摘要任务，在CNN-DailyMail上，它将transformer基础模型的计算量减少了2.4倍。对于语言建模，它的perplexity低于500M Mult-add左右的transformer 1.8。

在我们设计见解的指导下，我们手动设计的Lite Transformer比基于AutoML的进化型Transformer（So等人，2019年）的BLEU高0.5，这需要250 GPU以上的时间来搜索，在其生命周期中排放的碳量相当于五辆汽车（见图1b）。这表明AutoML并不是万能的：仔细的分析和设计见解（即消除瓶颈、专门化的头部）可以有效地削减搜索空间并提高样本效率。

本文的贡献有四个方面:
1、我们系统地分析了现代神经网络中常用的计算瓶颈结构，发现如果使用FLOPs作为评价指标，瓶颈设计对于一维注意不是最优的。
2、我们提出了一个专门的多分支特征提取器，Long-Short Range Attention (LSRA)，作为我们transformer的基本构建块，其中卷积有助于捕获局部上下文，注意力集中在全局上下文上。
3、我们基于我们的 LSRA 构建 Lite Transformer。在移动计算资源限制（500M Mult-Adds）下，我们的 Lite Transformer 展示了对三个广泛使用的机器翻译数据集的一致改进。通过对其他任务的额外实验，Lite Transformer 对于多语言应用程序非常有效。
4、即使与AutoML搜索的进化transformer相比，我们的Lite transformer在移动环境下在WMT En-De数据集上提供了0.5分的BLEU分数，在二氧化碳排放方面节省了20000倍的设计成本。它提醒我们重新考虑AutoML在设计成本和“绿色AI”方面的实用性。

Related work

RNNs and CNNs
递归神经网络 (rnn) 长期占据各种序列建模任务 (Sutskever等人，2014; Luong等人，2015; Bahdanau等人，2015; Wu等人，2016)。但是，由于rns的时间依赖性，因此不容易在序列之间并行化。最近，一些工作表明，RNN并不是实现最先进性能的重要组成部分。例如，研究人员提出了高效的基于卷积的模型 (Kalchbrenner等人，2016; Gehring等人，2017; Kaiser等人，2018; Wu等人，2019b)。卷积是对局部上下文信息建模的理想原语; 但是，它缺乏捕获长距离关系的能力，这在许多序列建模任务中至关重要。
Transformers
作为替代方案，注意力能够通过成对相关来捕获全局上下文信息。Transformer (Vaswani等人，2017) 已经证明，可以堆叠这些自我注意以实现最先进的性能。最近，Transformer有很多变体 (Ahmed等人，2017; Ott等人，2018; Chen等人，2018; Paulus等人，2018; Shaw等人，2018; Sukhbaatar等人，2019a;b; Child等人，2019)。其中，Ott等人 (2018) 提出了按比例放大批量; Shaw等人 (2018) 利用了相对位置表示; Ahmed等人 (2017) 引入了加权多头注意；sukhbaatar等 (2019a) 应用自适应掩码对具有非常长序列的字符级语言建模的远程信息进行建模。所有这些尝试都与我们的工作正交，因为它们的方法也可以应用于我们的体系结构中。
Automated Model Design

由于庞大的架构设计空间，使用神经架构搜索 (NAS) 实现设计自动化变得很流行（Zoph & Le，2017；Zoph 等人，2018；Pham 等人，2018；Cai 等人，2019a）。为了使设计高效，将硬件资源约束集成到优化循环中开始出现，例如 MnasNet (Tan et al., 2019)、ProxylessNAS (Cai et al., 2019b) 和 FBNet (Wu et al., 2019a) .在 NLP 社区中，进化的transformer (So et al., 2019) 采用神经架构搜索 (Zoph & Le, 2017) 来设计基本块，并为transformer找到更好的#parameter-BLEU 权衡。然而，基于 AutoML 的模型设计需要大量的 GPU 小时才能找到“最佳”模型，这对大多数研究人员来说是负担不起的。
Model Acceleration
除了直接设计有效的模型（Liu等人，2019b；Li等人，2020），实现有效推理的另一种方法是压缩和加速现有的大型模型。例如，一些人提议修剪单独的神经元（Han等人，2015b；2016）或整个通道（He等人，2017；Liu等人，2017；He等人，2018）；其他人建议量化网络（Courbariaux等人，2016年；Zhu等人，2017年；Krishnamoorthi，2018年；Wang等人，2019年），以加速模型推断。最近，AutoML还被用于自动化模型压缩和加速（He等人，2018年；Yang等人，2018年；Wang等人，2019年；Liu等人，2019a）。所有这些技术都在压缩现有模型，因此与我们的方法是正交的。我们的目标是探索如何从一开始就利用领域知识来设计一个高效的体系结构，而不是压缩现有的模型。

IS BOTTLENECK EFFECTIVE FOR 1-D ATTENTION?(一维注意力的瓶颈是否有效？)

注意机制已广泛用于各种应用中，包括1-D (语言处理 (Vaswani等，2017)) 、2-D (图像识别) 和3-D (视频识别 (Wang等，2018))。它计算所有输入元素之间的成对点积，以对短期和长期关系进行建模。尽管有效，但该操作引入了大量计算。假设输入到注意力层的元素数量（例如，语言处理中的标记长度、图像中的像素数量等）为 N，特征的维度（即通道）为 d，所需的点乘计算量是 N²d。对于图像和视频，N 通常非常大。例如，视频网络中的中间特征图 (Wang et al., 2018) 有 16 帧，每帧的分辨率为 112×112，导致 N = 2×10⁵。卷积和全连接层的计算量关于N线性增长而注意力层的计算量关于N的二次方增长。注意力模块的计算很快就会被大的N溢出。

为了解决这个难题，一种常见的做法是在应用注意力之前首先使用线性投影层减少通道数 d，然后再增加维度（如图 2 所示）。在transformer的原始设计中（Vaswani et al., 2017），注意力模块中的通道维度比FFN层小4倍。类似地，在non-local video network中（Wang et al., 2018），在应用non-local注意力模块之前，通道数首先减少了一半。这种做法节省了 16 倍或 4 倍的计算量。然而，它也降低了具有较小特征维度的注意力层的上下文捕获能力。语言处理的情况可能更糟，因为注意力是上下文捕获的主要模块（与卷积进行主要信息捕获的图像和视频不同）。
学新通
Fig.2 与FFN相比，平坦化transformer块的瓶颈增加了注意力的比例，这有利于在我们的LSRA中对注意力的进一步优化。

对于像翻译这样的任务，输入序列N的长度往往较小，在常见情况下约为20-30。transformer块由一个注意力 (或两个用于解码器) 组成，然后是前馈网络 (FFN)。对于注意层, Mult-Adds为O(4Nd² N²d); 对于FFN，Mult-Adds为O(2 × 4Nd2)。考虑到较小的N，瓶颈设计是否能在1D注意力的计算和准确性之间进行良好的权衡是值得怀疑的。为了验证这个想法，我们首先在图2中分析了transformer中的计算故障。令人惊讶的是，对于原始transformer（在图中表示为’Base’），FFN层实际上消耗了大量计算。这是不可取的，因为FFN本身无法执行任何上下文捕获。综上所述，由于N较小，瓶颈设计无法显著减少1D注意中的计算，而大FFN层进一步损害了有限的计算减少效益。由于注意层的维度较小，它也会损害注意层的容量，而注意层是transformer中主要的上下文捕获单元。
因此，我们认为瓶颈设计对于一维注意力不是最优的。相反，我们设计了一个“扁平化”版本的transformer块，它不会减少和增加通道维度。通过新设计，注意力部分现在占据了图 2 中扁平化transformer模型中的主要计算，为进一步优化留下了更大的空间。我们还在 WMT’14 En-Fr 数据集上测试了这种修改的性能变化。我们可以在稍微大一点的计算中实现相当的性能，通过下一节讨论的进一步优化可以很容易地降低性能。

Long-Short Range Attention(LSRA)

研究人员试图理解注意力捕捉到的语境。Kovaleva等人（2019年）和Clark等人（2020年）可视化了BERT中不同层次的注意力权重。如图3b所示，权重w说明了源句子和目标句子中的单词之间的关系（自我注意也是如此）。当权重wij（颜色较深）较大时，源句中的第i个单词更关注目标句中的第j个单词。注意力地图通常有很强的模式：稀疏和对角。它们代表了一些特定单词之间的关系：稀疏表示长期信息，对角线表示小社区中的相关性。我们将前者称为“global”关系，将后者称为“local”关系。

学新通
Fig.3 Lite transformer架构 (a) 和注意力权重的可视化。常规注意力 (b) 过于强调局部关系建模 (参见对角线结构)。我们通过卷积分支专门化局部特征提取，该分支有效地对局部进行建模，以便注意力分支可以专门化全局特征提取 ©。图a1中提供了更多可视化效果。

对于翻译任务，注意模块必须捕获全局和本地上下文，这需要很大的容量。与专业设计相比，这不是最佳的。以硬件设计为例，像cpu这样的通用硬件比像fpga这样的专用硬件效率低。在这里，我们应该专门捕捉全局和局部上下文。当模型容量较大时，可以容忍冗余，甚至可以提供更好的性能。然而，当涉及到移动应用程序时，由于计算和功率限制，模型应该更有效。因此，专门的上下文捕获要求更高。为了解决这个问题，我们提出了一种更专业的架构，即长短程注意力（LSRA），而不是一个用于“一般”信息的模块，它分别捕获全局和局部上下文。

如图 3a 所示，我们的 LSRA 模块遵循双分支设计。左分支捕获全局上下文，而右分支模拟本地上下文。我们没有将整个输入输入到两个分支，而是将其沿通道维度分成两部分，这些部分将由下面的 FFN 层混合。这种做法将整体计算量减少了 2 倍。左边的分支是Vaswani et al(2017)中的一个正常的注意模块,在通道尺寸减少一半。对于局部关系的右分支,一个自然的想法是在序列上应用卷积。使用滑动窗口,对角线部分可以很容易地由模块得到。为了进一步减少计算,我们使用由线性卷积层和深度卷积组成的轻量级版本（吴等人，2019b）取代正常卷积。通过这种方式，我们将注意力和卷积模块并排放置，鼓励他们在全局和本地对句子有不同的看法，以便架构可以从专业化中受益并实现更好的效率。

为了更好地了解，我们在图 3 中可视化了经过充分训练的基本 Transformer 和我们的 Lite Transformer 的同一层的平均注意力权重。很容易区分，注意力模块不是尝试对全局和局部上下文进行建模，而是在 LSRA 中只关注全局上下文捕获（无对角线模式），将局部上下文捕获留给卷积分支。

Experimental Setup

Mobile Settings

大多数机器翻译体系结构都受益于庞大的模型规模和计算复杂性。但是，边缘设备 (例如移动电话和IoTs) 在计算上受到高度限制。那些庞大的体系结构不再适合现实世界的移动应用程序。为了形式化问题，我们根据计算量和参数编号定义了NLP模型的移动设置:

ARM Cortex-A72移动CPU的流动点性能约为48G FLOPS (4核 @ 1.5GHz)。为了达到每秒50个句子的峰值性能，该模型应小于960M FLOPs (480M Mult-Adds)。这是计算机视觉社区中的常见约束。例如，Liu等人 (2018) 还使用500M Mult-Adds作为其移动设置的约束。因此，我们定义了机器翻译任务的移动设置: 计算约束应该在500M Mult-Adds (或1G FLOPs) 下，序列为30个令牌 (机器翻译的一般长度)。
此外，我们对模型的参数设置了限制。该约束基于下载和空间限制。使用蜂窝网络时，大型移动应用程序需要很长时间才能下载，甚至需要花费很多钱。运行时内存和磁盘大小也限制了参数数量。 MobileNet 7M 参数中的参数，我们将其四舍五入到最接近的量级，10M 参数，作为我们的移动约束。

Datasets and Evaluation

Machine Translation
结果基于三个机器翻译基准：对于 IWSLT’14 德语-英语 (De-En)，我们遵循 Grave 等人的设置。 (2017) 具有 160K 训练句子对和 10K 联合字节对编码 (BPE) (Sennrich et al., 2016) 小写词汇。对于 WMT 英语到德语 (En-De)，我们在具有 450 万句对的 WMT’16 训练数据上训练模型，在 newstest2013 上进行验证，在 newstest2014 上进行测试，与 Wu 等人（2019b）相同。此外，词汇表使用了 32K 的联合源和目标 BPE。对于 WMT 英语到法语 (En-Fr)，我们复制了 Gehring 等人(2017)的设置, 使用来自 WMT’14 的 36M 训练句子对，在 newstest2012 和 2013 上进行验证，并在 newstest2014 上进行测试。此外，40K 词汇表基于联合源和目标 BPE 分解。

为了评估，我们使用Vaswani等人 (2017) 使用的相同波束解码配置，其中波束大小为4，长度损失为0.6。所有BLEUs均使用区分大小写的标记 * 进行计算，但是对于WMT En-De，我们还使用化合物分裂bleu †，与Vaswani等人相同。(2017)。测试时，我们对IWSLT De-En的最后10个模型检查点进行平均，并在WMT数据集的验证集中采用困惑度最低的模型。我们从模型参数中省略了单词嵌入查找表，因为对于使用transformer的各种任务，表中的条目数将相差很大。对于Mult-Adds，我们计算模型的乘法-加法对的总数，该模型将长度为30的序列转换为相同长度的序列，这是句子级机器翻译任务的平均长度。

**Abstractive Summarization. **
我们还在 CNN-DailyMail 数据集 (Hermann et al., 2015) 上评估我们的 Lite Transformer 以进行抽象摘要。该数据集包含 28 万条新闻文章以及多句摘要。我们将文章截断为 1000 个标记并使用 30K BPE 词汇表。我们使用 F1-Rouge 作为指标，包括 Rouge-1 (R-1)、Rouge-2 (R-2) 和 Rouge-L (R-L) (Lin, 2004)‡。我们遵循 Lewis 等人的生成设置。（2019）。我们在模型参数和#Mult-Adds 计算中都省略了词嵌入查找表和 softmax 层。 #Mult-Adds 是针对输入长度为 30、100 和 1000 且输出长度为 60（CNN-DailyMail 数据集输出的平均标记）的文档计算的。
Language Modeling
我们在WIKITEXT-103上测试我们的Lite Transformer的语言建模任务，其中包括大约100M令牌和260K BPE词汇。我们评估验证集和训练集上的困惑。还为长度为30、100和1000的输入计算模型参数和 # Mult-Adds。

Architecture

模型架构基于序列到序列学习编码器-解码器 (Sutskever等人，2014)。对于机器翻译，我们的基线模型基于Vaswani等人 (2017) 针对WMT提出的模型。对于IWSLT，我们遵循Wu等人 (2019b) 中的设置。我们也采用与WMT相同的模型进行总结任务。对于语言建模，我们的模型与Baevski & Auli (2019) 一致，但对于资源约束，模型尺寸较小，dmodel = 512，层数L= 12。我们使用fairseq的transformer基础模型的重新实现 (Ott等人，2019) 作为主干。

在我们的体系结构中，我们首先从transformer基础模型中消除瓶颈，然后用LSRA取代自我关注。更具体地说，我们使用两个专门的模块，一个注意分支和一个卷积分支。卷积的输入和输出都通过完全连接的层进行转换（GLU应用于WMT上的输入），并使用WMT模型中的完全连接层从输入动态计算内核。编码器和解码器的内核大小均为[3,5,7,31×3]（Wu等人，2019b），每个模块的磁头数为4（transformer base模型中磁头数的一半）。摘要模型与WMT模型相同。对于语言建模，卷积分支的内核大小为[15,15,31×4,63×6]。

Training Settings

我们所有的机器翻译培训设置都符合吴等人(2019b)的要求。对于WMT和IWSLT数据集，我们使用0.3的dropout，并且当缩小WMT数据集的嵌入维度时，我们使用线性缩放dropout。与吴等人（2019b）相同，我们应用Adam优化器和余弦学习速率计划（Kingma&Ba，2015；LoshChilov&Hutter，2017）的WMT模型，其中学习速率首先从10-7线性预热到10-3，然后进行单周期余弦退火。对于 IWSLT De-En，我们使用逆平方根学习率调度 (Vaswani et al., 2017) 和线性预热。我们使用相同的训练设置进行总结。对于语言建模任务，训练设置与 Baevski & Auli (2019) 一致。由于扁平化层，我们在 Lite Transformer 中将 FFN 层的丢失率降低了一半。

我们在16个NVIDIA RTX 2080Ti GPU和IWSLT De-En上训练WMT和总结模型，在单个GPU上进行50k步。我们还在每次模型更新之前累积8个批次的梯度 (Ott等人，2018)。IWSLT模型的梯度没有累积。对于所有型号，批量令牌的最大数量为4K。将0.1的标签平滑应用于词汇的优先分布 (Szegedy等人，2016; Pereyra等人，2017)。对于语言建模，我们在24个gpu上训练模型286K步，与Baevski & Auli (2019) 中的设置相同。

Results

Machine Translation

Results on IWSLT
我们首先在 IWSLT’14 De-En 数据集上报告结果。基线模型与 Wu 等人一致。（2019b），它提供了文献中最好的结果，模型维度为 512，FFN 隐藏维度为 1024，注意力集中有 4 个头。我们的 Lite Transformer 在移动限制下的性能通常优于变压器基础。随着更严格的计算限制，我们的模型实现了更显着的改进。这是因为，当特征的维数减小时，“一般”注意力从特征内更紧凑的信息中提取全局和局部特征变得更加困难。相反，使用专门的 LSRA，我们的模型可以更有效地从特征中捕获信息。

在表1中，我们在IWSLT 14 De-En数据集上展示了我们的Lite transformer的定量结果，与变压器基线以及LightConv (Wu等人，20 1 9b) 进行了比较。大约100M Mult-add，我们的模型甚至比变压器实现了1.6的BLEU分数提高。
学新通
Table1. IWSIT14 De-En的结果。我们的Lite transformer优于transformer(Vaswani等人，2017) 和轻量级卷积网络 (Wu等人，2019b)，特别是在移动设置中。

Results on WMT
我们还显示了WMT’14 En De和WMT’14 En Fr数据集上的结果。与IWSLT类似，我们的Lite Transformer在Transformer（Vaswani et al.，2017）与移动设置下的总计算量和模型参数数量之间实现了更好的权衡。表2中的定量结果表明，我们的专业Lite Transformer在100M多个数据集下的BLEU分数分别提高了1.2和1.7，在WMT En De数据集和WMT En Fr数据集上的BLEU分数分别提高了约0.5和1.5。我们还在图4a中提供了WMTEn Fr的折衷曲线，其中我们的Lite Transformer始终优于原始Transformer。
学新通
Table.2 WMT’14 En-De 和 WMT’14 En-Fr 的结果。我们的 Lite Transformer 在类似的 Multi-Adds 约束下提高了变压器的 BLEU 分数。

学新通
Fig.4 WMT En-Fr 机器学习和 WIKITEXT-103 数据集语言建模的权衡曲线。两条曲线都表明我们的 Lite Transformer 在移动设置（蓝色区域）下的性能优于基本的 Transformer。

Amenable to Compression
作为一种高效的架构，我们的 Lite Transformer 与模型压缩的一般技术（适合压缩）正交，例如剪枝和量化。使用这些技术在 WMT’14 En-Fr 数据集上的结果如图 5 所示。我们使用 K-means (Han et al., 2016) 将模型权重量化为 8 位，并根据每一层的敏感性修剪模型（韩等人，2015a）。通过这两种模型压缩技术，我们的方法实现了 18.2 倍的模型大小压缩，BLEU 分数下降可以忽略不计。
学新通
Fig.5 具有模型压缩的WMT En-Fr数据集上的模型大小和BLEU得分。我们的Lite transformer可以与通用压缩技术相结合，并实现18.2 × 模型尺寸压缩。∗ “quant” 表示 “量化”。

COMPARISON WITH AUTOMATED DESIGN

与基于AutoML的演进变压器 (ET) (So等人，2019) 相比，我们的Lite变压器在移动设置中也显示出显着的改进。此外，在移动设置中，如表3所示，Lite变压器在100M和300M Mult-Adds下分别以0.5和0.2 BLEU得分优于ET。我们的架构设计与ET的设计不同: ET依次堆叠注意力和卷积，而我们的Lite变压器将它们并行放置; 此外，ET不会进入FFN。
学新通
Table.3 NMT模型在CO2排放 (lbs) 和云计算成本 (USD) 方面的性能和培训成本。训练成本估计是根据Strubell等人 (2019) 改编的。变压器和我们的Lite变压器的培训时间是在NVIDIA V100 GPU上测量的。云计算成本由AWS定价 (较低的价格: 现货实例; 较高的价格: 按需实例)。

尽管如今，神经架构搜索已被证明在大型设计空间中搜索非常强大，但其巨大的成本、超过 626155 磅的二氧化碳排放量和超过 250 年的 GPU 年数是不容忽视的。取而代之的是，具有对特定任务的直觉的精心人性化设计，在实践中也可以成为为地球节省大量资源的绝佳选择。

ABSTRACTIVE SUMMARIZATION AND LANGUAGE MODELING

我们还在更长的输入上测试了我们的 Lite Transformer。在表 4 中，我们报告了 CNN-DailyMail 数据集的结果以进行抽象摘要。我们的模型实现了与 Transformer 基础模型相似的 F1-Rouge 分数，但需要 2.4 倍的计算量和 2.5 倍的存储资源。在表 5 中，我们提供了我们的 Lite Transformer 在 WIKITTEXT-103 上用于语言建模任务的结果，并与自适应输入 Baevski & Auli (2019) 基线进行了比较。在类似的资源限制下，我们的 Lite Transformer 在有效集和测试集上的困惑度分别可以降低 3.9 和 1.8。在图 4b 中，我们展示了我们的模型和 WIKITEXT-103 上的基线转换器模型在测试困惑度和具有 30 个标记的输入句子的#Multi-Adds 之间的权衡曲线。这表明我们的 Lite Transformer 比原来的 Transformer 实现了持续改进，尤其是在移动设置下。尽管有翻译任务，LSRA 的专业化设计对于更大规模的语言任务是有效的。
学新通
Table4.CNN-DailyMail数据集上的结果，用于抽象摘要。我们的Lite变压器实现了与变压器 (Vaswani等人，2017) 相似的F1-Rouge (R-1，R-2和r-l)，具有2.4倍以上的计算量和2.5倍的模型尺寸。“# MAdds (x)” 表示输入长度为x的模型所需的 # Mult-Adds。

学新通
Table5. WIKITEXT-103语言建模数据集的结果。我们将我们的Lite Transformer架构应用于具有自适应输入的Transformer基础模型（Baevski&Auli，2019），并在类似资源约束下实现了1.8低测试复杂度。

CONCLUSION

在本文中，我们提出了长短距离注意（LSRA），其中一些负责人专注于本地上下文建模，而其他负责人则专注于远程关系建模。基于这个原语，我们设计了专门用于移动设置（500M 多加）的 Lite Transformer，以方便在边缘设备上的部署。我们的 Lite Transformer 展示了在多语言应用程序上对 Transformer 的持续改进。它还超越了需要在移动设置下进行昂贵的架构搜索的 Evolved Transformer。

这篇好文章是转载于：学新通技术网

Lite Transformer with Long-Short range attention

Abstract

Introduction

Related work

IS BOTTLENECK EFFECTIVE FOR 1-D ATTENTION?(一维注意力的瓶颈是否有效？)

Long-Short Range Attention(LSRA)

Experimental Setup

Mobile Settings

Datasets and Evaluation

Architecture

Training Settings

Results

Machine Translation

COMPARISON WITH AUTOMATED DESIGN

ABSTRACTIVE SUMMARIZATION AND LANGUAGE MODELING

CONCLUSION

photoshop保存的图片太大微信发不了怎么办

Android 11 保存文件到外部存储，并分享文件

《学习通》视频自动暂停处理方法

word里面弄一个表格后上面的标题会跑到下面怎么办

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

怎样阻止微信小程序自动打开

TikTok加速器哪个好免费的TK加速器推荐