科院一区顶刊 | DilateFormer: 即插即用的多尺度全局注意力机制(附源码实现)

CVHub

2024-04-22 帮助1人

导读

论文：《DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition》

本文提出了一种新颖的多尺度空洞 Transformer，简称DilateFormer，以用于视觉识别任务。原有的 ViT 模型在计算复杂性和感受野大小之间的权衡上存在矛盾。众所周知，ViT 模型使用全局注意力机制，能够在任意图像块之间建立长远距离上下文依赖关系，但是全局感受野带来的是平方级别的计算代价。同时，有些研究表明，在浅层特征上，直接进行全局依赖性建模可能存在冗余，因此是没必要的。

为了克服这些问题，作者提出了一种新的注意力机制——多尺度空洞注意力（MSDA）。MSDA 能够模拟小范围内的局部和稀疏的图像块交互，这些发现源自于对 ViTs 在浅层次上全局注意力中图像块交互的分析。作者发现在浅层次上，注意力矩阵具有局部性和稀疏性两个关键属性，这表明在浅层次的语义建模中，远离查询块的块大部分无关，因此全局注意力模块中存在大量的冗余。

学新通

在这个基础上，本文进一步构建了DilateFormer，它在底层阶段堆叠 MSDA 块，在高层阶段使用全局多头自注意力块。这样的设计使得模型能够在处理低级信息时，充分利用局部性和稀疏性，而在处理高级信息时，又能模拟远距离依赖。

学新通

最终，论文通过在不同的视觉任务上进行实验，发现 DilateFormer 模型取得了很好的效果。在 ImageNet-1K 分类任务上，与现有最优秀的模型相比，DilateFormer 模型的性能相当，但所需的FLOPs（浮点运算次数）减少了70%。在其它的视觉任务，如 COCO 对象检测/实例分割任务和 ADE20K 语义分割任务，DilateFormer 模型同样取得了优秀的表现。

方法

DilateFormer 是一个以金字塔结构为基础的深度学习模型，它主要设计用来处理基础的视觉任务。DilateFormer 的关键设计概念是利用多尺度空洞注意力（Multi-Scale Dilated Attention, MSDA）来有效捕捉多尺度的语义信息，并减少自注意力机制的冗余。

学新通

如上图所示，DilateFormer的整体架构主要由四个阶段构成。在第一阶段和第二阶段，使用 MSDA，而在后两个阶段，使用普通的多头自注意力（MHSA）。对于图像输入，DilateFormer 首先使用重叠的分词器进行 patch 嵌入，然后通过交替控制卷积核的步长大小（1或2）来调整输出特征图的分辨率。对于前一阶段的 patches，采用了一个重叠的下采样器，具有重叠的内核大小为 3，步长为 2。整个模型的每一部分都使用了条件位置嵌入（CPE）来使位置编码适应不同分辨率的输入。

学新通

DilateFormer 的核心部分是它的 MSAD 模块。如上图所示，MSDA 模块同样采用多头的设计，将特征图的通道分为 n 个不同的头部，并在不同的头部使用不同的空洞率执行滑动窗口膨胀注意力（SWDA）。这样可以在被关注的感受野内的各个尺度上聚合语义信息，并有效地减少自注意力机制的冗余，无需复杂的操作和额外的计算成本。具体的操作如下：

对于每个头部，都会有一个独立的膨胀率 $r_{i}$
从特征图中获取切片 $Q_{i}$ ， $K_{i}$ 和 $V_{i}$ ，执行 SWDA，得到输出 $h_{i}$
将所有头部的输出连接在一起，然后通过一个线性层进行特征聚合。

以上便是 MSDA 模块的主要工作流程。总体来说，DilateFormer 通过这种混合使用多尺度空洞注意力和多头自注意力的方式，成功地处理了长距离依赖问题，同时保持了计算效率，并能够适应不同尺度和分辨率的输入。

为了适应不同的需求，DilateFormer 设计了几种缩放架构：

学新通

代码

多尺度模块实现：

class DilateBlock(nn.Module):
    "Implementation of Dilate-attention block"
    def __init__(self, dim, num_heads, mlp_ratio=4., qkv_bias=False,qk_scale=None, drop=0., attn_drop=0.,
                 drop_path=0.,act_layer=nn.GELU, norm_layer=nn.LayerNorm, kernel_size=3, dilation=[1, 2, 3],
                 cpe_per_block=False):
        super().__init__()
        self.dim = dim
        self.num_heads = num_heads
        self.mlp_ratio = mlp_ratio
        self.kernel_size = kernel_size
        self.dilation = dilation
        self.cpe_per_block = cpe_per_block
        if self.cpe_per_block:
            self.pos_embed = nn.Conv2d(dim, dim, 3, padding=1, groups=dim)
        self.norm1 = norm_layer(dim)
        self.attn = MultiDilatelocalAttention(dim, num_heads=num_heads, qkv_bias=qkv_bias, qk_scale=qk_scale,
                                                attn_drop=attn_drop, kernel_size=kernel_size, dilation=dilation)

        self.drop_path = DropPath(
            drop_path) if drop_path > 0. else nn.Identity()

        self.norm2 = norm_layer(dim)
        mlp_hidden_dim = int(dim * mlp_ratio)
        self.mlp = Mlp(in_features=dim, hidden_features=mlp_hidden_dim,
                       act_layer=act_layer, drop=drop)

    def forward(self, x):
        if self.cpe_per_block:
            x = x   self.pos_embed(x)
        x = x.permute(0, 2, 3, 1)
        x = x   self.drop_path(self.attn(self.norm1(x)))
        x = x   self.drop_path(self.mlp(self.norm2(x)))
        x = x.permute(0, 3, 1, 2)
        #B, C, H, W
        return x

MSDA 具体实现

class DilateAttention(nn.Module):
    "Implementation of Dilate-attention"
    def __init__(self, head_dim, qk_scale=None, attn_drop=0, kernel_size=3, dilation=1):
        super().__init__()
        self.head_dim = head_dim
        self.scale = qk_scale or head_dim ** -0.5
        self.kernel_size=kernel_size
        self.unfold = nn.Unfold(kernel_size, dilation, dilation*(kernel_size-1)//2, 1)
        self.attn_drop = nn.Dropout(attn_drop)

    def forward(self,q,k,v):
        #B, C//3, H, W
        B,d,H,W = q.shape
        q = q.reshape([B, d//self.head_dim, self.head_dim, 1 ,H*W]).permute(0, 1, 4, 3, 2)  # B,h,N,1,d
        k = self.unfold(k).reshape([B, d//self.head_dim, self.head_dim, self.kernel_size*self.kernel_size, H*W]).permute(0, 1, 4, 2, 3)  #B,h,N,d,k*k
        attn = (q @ k) * self.scale  # B,h,N,1,k*k
        attn = attn.softmax(dim=-1)
        attn = self.attn_drop(attn)
        v = self.unfold(v).reshape([B, d//self.head_dim, self.head_dim, self.kernel_size*self.kernel_size, H*W]).permute(0, 1, 4, 3, 2)  # B,h,N,k*k,d
        x = (attn @ v).transpose(1, 2).reshape(B, H, W, d)
        return x

class MultiDilatelocalAttention(nn.Module):
    "Implementation of Dilate-attention"

    def __init__(self, dim, num_heads=8, qkv_bias=False, qk_scale=None,
                 attn_drop=0.,proj_drop=0., kernel_size=3, dilation=[1, 2, 3]):
        super().__init__()
        self.dim = dim
        self.num_heads = num_heads
        head_dim = dim // num_heads
        self.dilation = dilation
        self.kernel_size = kernel_size
        self.scale = qk_scale or head_dim ** -0.5
        self.num_dilation = len(dilation)
        assert num_heads % self.num_dilation == 0, f"num_heads{num_heads} must be the times of num_dilation{self.num_dilation}!!"
        self.qkv = nn.Conv2d(dim, dim * 3, 1, bias=qkv_bias)
        self.dilate_attention = nn.ModuleList(
            [DilateAttention(head_dim, qk_scale, attn_drop, kernel_size, dilation[i])
             for i in range(self.num_dilation)])
        self.proj = nn.Linear(dim, dim)
        self.proj_drop = nn.Dropout(proj_drop)

    def forward(self, x):
        B, H, W, C = x.shape
        x = x.permute(0, 3, 1, 2)# B, C, H, W
        qkv = self.qkv(x).reshape(B, 3, self.num_dilation, C//self.num_dilation, H, W).permute(2, 1, 0, 3, 4, 5)
        #num_dilation,3,B,C//num_dilation,H,W
        x = x.reshape(B, self.num_dilation, C//self.num_dilation, H, W).permute(1, 0, 3, 4, 2 )
        # num_dilation, B, H, W, C//num_dilation
        for i in range(self.num_dilation):
            x[i] = self.dilate_attention[i](qkv[i][0], qkv[i][1], qkv[i][2])# B, H, W,C//num_dilation
        x = x.permute(1, 2, 3, 0, 4).reshape(B, H, W, C)
        x = self.proj(x)
        x = self.proj_drop(x)
        return x

实验

学新通

DilateFormer 的各种变体在 Mask R-CNN 和 Cascade Mask R-CNN 两种框架下，相比其他 Transformer 模型，实现了更好的性能，如在 box mAP 和 mask mAP 方面都取得了显著的提升。

学新通

在 ADE20K 数据集上进行的语义分割任务，文中使用 Upernet 和 Semantic FPN 两种框架，DilateFormer 在 mIoU 评价指标上超过了 Swin Transformer，同样显示出优异的性能。

学新通

再看下 Grad-CAM 的可视化结果，可以看出目标相对来说注意力区域覆盖比较全面和集中，从侧面也能够说明引入多尺度机制的有效性。

总结

在这项工作中，研究者们提出了一个强大且有效的视觉Transformer模型，称为DilateFormer。这种模型可以为各种视觉任务提供强大且通用的表示。提出的多尺度空洞注意力（MSDA）模块考虑了自注意力机制在浅层网络中的局部性和稀疏性，它可以有效地聚合语义多尺度信息，并有效地减少自注意力机制的冗余性，而无需复杂的操作和额外的计算成本。

在大量的实验结果中，DilateFormer 表现出优异的性能，达到了在ImageNet-1k分类和下游视觉任务（如目标检测和语义分割）中的最新水平。该模型通过采用滑动窗口空洞注意（SWDA）操作以及在各个不同尺度上捕捉上下文语义依赖性的 MSDA，进一步提升了性能。

写在最后

欢迎对注意力机制相关研究感兴趣的童鞋扫描屏幕下方二维码或者直接搜索微信号 cv_huber 添加小编好友，备注：学校/公司-研究方向-昵称，与更多小伙伴一起交流学习！

这篇好文章是转载于：学新通技术网

科院一区顶刊 | DilateFormer: 即插即用的多尺度全局注意力机制(附源码实现)

导读

方法

代码

实验

总结

写在最后

photoshop保存的图片太大微信发不了怎么办

Android 11 保存文件到外部存储，并分享文件

word里面弄一个表格后上面的标题会跑到下面怎么办

《学习通》视频自动暂停处理方法

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

怎样阻止微信小程序自动打开

TikTok加速器哪个好免费的TK加速器推荐