我们提供安全，免费的手游软件下载！

当前位置: 主页 > 软件教程 > 软件教程

文章重构：论文《将卷积设计融入视觉Transformer》的深度学习

来源：网络更新时间：2024-05-23 15:31:28

论文提出CeiT混合网络，结合了CNN在提取低维特征方面的局部性优势以及Transformer在建立长距离依赖关系方面的优势。CeiT在ImageNet和各种下游任务中达到了SOTA，收敛速度更快，而且不需要大量的预训练数据和额外的CNN蒸馏监督，值得借鉴

来源：晓飞的算法工程笔记公众号

论文: Incorporating Convolution Designs into Visual Transformers

论文地址： https://arxiv.org/abs/2103.11816

Introduction

在视觉领域中，纯Transformer架构往往需要大量的训练数据或额外的监督来达到与CNN相当的性能。为了克服这些限制，论文对直接使用Transformer架构的潜在缺点进行了分析，发现Transformer主要缺乏了CNN的平移不变性以及局部性。于是，论文将CNN在提取低维特征方面的局部性优势以及Transformer在建立长距离依赖关系方面的优势进行结合，提出了Convolution-enhanced image Transformer(CeiT)混合网络。

论文对原生Transformer做了三处修改：

设计了Image-to-Tokens（I2T）模块，从生成的低维特征中提取token序列，而不是将原始输入图像直接分割成token序列。
提出Locally-enchanced Feed-Forward(LeFF)层替换每个encoder中的feed-forward层，LeFF能够促进相邻token之间的相关性。
在Transformer的顶部附加Layer-wise Class token Attention(LCA)，能够综合多层特征作为最终输出。

在ImageNet和七个下游任务的实验结果表明，CeiT的性能和泛化能力比之前的Transformer和CNN更优，而且不需要大量的训练数据和额外的CNN蒸馏。此外，CeiT模型的收敛性更好，训练迭代次数减少了3倍，极大地降低了训练成本。

Methodology

Image-to-Tokens with Low-level Features

为了优化初始token序列的生成，论文提出了简单而有效的Imageto-Tokens（I2T）模块，从生成的低维特征中提取token序列，而不是将原始输入图像直接分割。如图2所示，I2T模块是由卷积层和最大池化层组成的轻量级stem结构，卷积层后面会进行BN操作。整个模块可表示为：

其中 \(x^{'}\in \mathbb{R}^{\frac{H}{S}\times \frac{W}{S}\times D}\) ， \(S\) 为卷积的stride参数， \(D\) 为卷积输出的通道数。

在得到输出特征图后，根据空间维度从中切割图像块序列。为了保持生成的标记数量与ViT一致，论文将图像块的分辨率缩减为 \(（\frac{P}{S} ,\frac{P}{S}）\) ，在实践中设定 \(S = 4\) 。最后，通过embedding操作将图像块序列转换为token序列。

I2T模块能够充分发挥CNN在提取低层次特征方面的优势，并且能够通过缩小图像块的大小来降低embedding的训练难度。与用ResNet-50来提取后两个阶段的高层特征的混合类型Transformer对比，I2T模块要轻量得多。

...以下省略

相关资讯

使用Numpy计算矩阵特征值和特征向量

掌握设计模式之简单工厂模式

享元模式：结构型设计模式的一种

Redis探秘Sentinel（哨兵模式）

机器学习：神经网络构建（上）

log4j2 变量注入漏洞(CVE-2021-44228)

线上应用的用户身份鉴权与安全性探讨

使用Docker构建包含Supervisor的镜像

业务挑战

深入了解.NET Core 9.0版本中的MapStaticAssets中间件

热门攻略

独奏第1季评论

独奏第1季评论

火之谜评论 03-23

MLB节目24评论 03-23

部落3：竞争对手最终审查 03-20

Palm Royale评论 03-20

大盗窃小村庄评论 03-20

热门资讯

使用Numpy计算矩阵特征值和特征向量12-05

掌握设计模式之简单工厂模式12-05

线上应用的用户身份鉴权与安全性探讨12-04

基于.NetCore开发博客项目 StarBlog - (32) 第一期完结12-03

三段实习经历总结的血泪教训12-02

热门游戏