2. 中国科学院机器人与智能制造创新研究院, 辽宁 沈阳 110169;
3. 中国科学院大学, 北京 100049
2. Institutes for Robotics and Intelligent Manufacturing, Chinese Academy of Sciences, Shenyang 110169, China;
3. University of Chinese Academy of Sciences, Beijing 100049, China
0 引言
传统的单幅图像去雨方法采用各种线性关系来描述图像中的雨流信息[1-2],然而这类方法在遇到密度和形状较为复杂的雨流时往往不够鲁棒。近年来基于卷积神经网络(convolutional neural network,CNN)的深度学习方法在包括单幅图像去雨的计算机视觉领域得到了广泛应用[3-5]。这类方法利用卷积网络强大的特征提取能力,对图像特征进行学习,随着网络的加深,模型的感知能力从浅层特征发展到语义特征[6-7]。LI等引入膨胀卷积加强网络对上下文信息的感知,提出了一种分阶段去雨的方法[8]。REN等提出一种采用迭代方式的去雨方法,能够逐步地将不同方向和大小的雨流去除,取得了先进的效果[9]。然而卷积网络的性能仍然受制于自身的感受野大小。理论上,随着卷积层的叠加,感受野不断扩大,这有利于网络对图像的全局信息进行学习,然而研究表明,卷积神经网络的有效感受野只是理论值的一部分且呈高斯分布,说明卷积层并不能对图像的全局特征进行有效的提取[10]。由于图像的全局特征往往能够提升图像恢复方法的有效性[11-12],而去雨任务也属于图像恢复的范畴,所以设计一种能够学习全局信息的网络对去雨任务是十分必要的。
Transformer模型最早在自然语言处理(natural language processing,NLP)领域中被提出[13],能够并行处理单词向量的特征信息,成功取代了循环神经网络。它对全局元素进行计算,适合远距离信息交互,这正是卷积网络的短板。自Transformer在NLP领域取得成功以来,研究人员一直尝试将其应用在计算机视觉领域。CHEN等将图像1维化,利用Transformer对像素序列进行分析,在图像分类任务上取得了可与CNN媲美的结果[14]。DOSOVITSKIY等提出了另一种模型ViT[15],这项研究使用纯Transformer对数据进行处理,将图片划分成基本块,再将每个基本块拉伸,得到对应的多维像素,将这些多维像素放入Transformer结构,模型在图像分类上取得了先进的性能。除图像分类,Transformer也被应用在目标检测、语义分割等视觉任务中。但Transformer也有一定局限性,如计算量与输入图像的大小成二次方关系,增大了网络运算量,降低了网络性能。微软提出的Swin Transformer[16],通过将图像分块,并在每个图像块内部进行自注意力运算的方法,实现了模型计算的时间复杂度与图像的分辨率之间呈线性增长,而非二次方增长。为了增强长距离的信息交互,还设计了窗口移动机制,实现了全局信息的交互。Swin Transformer机制在图像分类、目标检测、语义分割和图像超分等任务中已经取得良好成绩[17-25]。
本文结合卷积神经网络和Swin Transformer各自的优势,提出了一种融合全局和局部特征的单幅图像去雨方法,该方法既能兼顾局部特征和全局特征,又实现了多特征空间内的信息融合。方法包含3个阶段:粗特征提取阶段、特征精炼阶段、特征融合阶段。粗特征提取阶段的网络通过卷积层,对带雨图像的浅层局部特征进行提取,并将结果分别输入到后面的两个阶段,保证了最终的输出能够保留细节信息。第二阶段的网络通过多支路设计,对不同特征空间内的全局信息进行提取,其内部的特征精炼模块主要由串联的Swin Transformer模块组成。最后,前两个阶段的输出结果输入到特征融合阶段,最终生成无雨图像。
1 相关工作为了更好地理解Transformer机制是如何对全局信息建立关联,以及本文方法采用的Swin Transformer如何在继承这一优势的同时,控制网络的计算量,本节对Transformer和Swin Transformer的关键内容进行介绍。
1.1 Transformer及其自注意力机制以Transformer最早得到应用的NLP领域为例,本节对其网络框架和采用的自注意力机制进行阐述和说明。
1.1.1 Transformer的结构图 1是一种典型的Transformer网络,包含一个编码模块和一个解码模块,编码和解码模块内部又包含一系列结构相同的编/解码器。每个编码器由一个自注意力层和前馈神经网络串联构成,解码器在编码器的基础上还另外包含一层编解码注意力层。以Transformer在NLP任务中的配置为例,在能够实现翻译句子的功能前,Transformer需要将句子中的每个单词嵌入到一个512维度的向量中,这个表示一个单词的向量一般被称作一个token。
![]() |
图 1 一种NLP网络内部的Transformer结构 Fig.1 Transformer structure within a NLP network |
在自注意力层中,一个输入向量首先被转换成3个不同的向量:查询向量q、键向量k、值向量v。它们的维度均与输入向量保持一致,由不同输入向量转换出的向量被打包成3个不同的矩阵,即Q、K和V。随后,通过一种被称作scaled dot-product attention的注意力机制,对不同输入向量之间的注意力函数进行计算,scaled dot-product attention计算过程在图 2进行了说明,由于在Transformer中Q、K和V均由同一个输入向量生成,所以该过程也被称作自注意力机制,具体步骤为:
![]() |
图 2 自注意力的运算过程 Fig.2 Computational process of self-attention |
步骤1 计算不同输入向量之间的关联值S = QKT。
步骤2 为了避免梯度爆炸和梯度消失,将S进行归一化,
步骤3 利用Softmax函数将Sn转换为概率值P =Softmax(Sn)。
步骤4 通过Z = VP得到权重矩阵,以上的过程用公式可以表达为
![]() |
(1) |
式(1)背后的逻辑很简单。步骤1计算两个不同向量之间的关联得分,这些关联得分决定了网络在编码当前位置的token时应该给予其他token的关注程度。步骤2将分数归一化,以增强梯度稳定性,用于改进训练。步骤3将分数转化为概率。最后,将每个值向量乘以总概率。具有较大概率的向量将在接下来的网络层获得更多的权重。
解码器模块中的编码器- 解码器注意层类似于编码器模块中的自注意层,不同之处在于键矩阵K和值矩阵V由编码器模块导出,查询矩阵Q由前一层导出。
1.2 Swin Transformer机制 1.2.1 基于窗口的自注意力机制自然语言处理领域中的Transformer模型及其在图像分类领域的变体网络通常采用全局自注意力机制,每一个token与其他所有的token之间的关系都要进行计算,这种自注意力机制产生的计算量与输入图像的尺寸成二次方关系,若将图像划分为很多patch,每个patch的信息相当于一个token,拥有h×w个patch的图像,其计算复杂度如式(2)所示:
![]() |
(2) |
其中,C是输入图像的维度。Swin Transformer采取基于窗口的自注意力机制(window based multi-head self-attention,W-MSA),首先将图像划分为多个窗口,并在每个窗口内部进行自注意力运算。这些窗体大小相等,互不重叠。假设每个窗体内部有M×M个patch(patch的尺寸可以自定义),对于拥有h×w个patch的图像,其计算复杂度如式(3)所示:
![]() |
(3) |
可以看出W-MSA的计算量与图像尺寸成线性关系。对于大尺寸的图像,标准的Transformer网络造成的运算量是一般的硬件无法承受的,而Swin Transformer包含的计算量是相对可控的。
1.2.2 移动窗体机制如图 3所示,一个STB(swin transformer block)内部包含一个W-MSA模块,后面与一个两层结构的多层感知机(multilayer perceptron,MLP)相连,MLP的两层结构之间夹有一层GELU(Gaussian error linear units)激活层,W-MSA模块和MLP都有各自的前置归一化层(LayerNorm,LN),另外每个模块都应用了残差连接来保证输出的稳定性。
![]() |
图 3 两个连续的STB Fig.3 Two successive STB |
W-MSA模块能够减小整个网络的计算量,但同时缺少不同窗体之间的信息交互,为了在不增加整体计算量的前提下实现不同窗体之间的关联,Swin Transformer采用了一种移动窗体划分方式,在连续的STB之间轮流使用两种窗体划分方法。以两个连续的STB为例,第1个STB采用常规的窗口划分方式,即从左上方第1个像素开始划分窗体,8×8的特征图被划分成2×2个窗体,每个窗体的尺寸为4×4(M=4)。第2个STB采取不同于此的窗口划分策略,从第(M/2」,M/2」)个像素开始窗口划分,产生新的窗体分区,其工作原理如图 4所示。在新划分的窗体内进行的自注意力运算突破了上一阶段的窗体边界,使得不同窗体之间的信息得以进行交互和融合。
![]() |
图 4 连续两个STB之间的移动窗体机制示意图 Fig.4 An illustration of the shifted window mechanism between two successive STBs |
本文提出了一种利用Swin Transformer融合全局和局部特征的单幅图像去雨方法(single image deraining method fusing global and local features,SDFGL),该方法的整体网络结构如图 5所示。网络分为粗特征提取、特征精炼、特征融合三个阶段。
![]() |
图 5 SDFGL网络架构 Fig.5 Network architecture of the SDFGL |
对于Transformer模型,由于其最早应用在自然语言处理领域,往往把输入语句的每一个单词称作一个token,作为基本的待处理元素。类似地,本文将图像中的每个像素作为一个token,并在特征空间内进行升维,提升每个像素包含的信息量。利用一层核大小为3×3,步长为1的(本方法中所有卷积层的配置同此处)卷积层实现此功能,将每个像素的通道数从原来的RGB三个通道提升至96。另外,由于卷积层具有局部特征提取能力,其输出的特征图中包含原始图像的浅层特征。
2.2 特征精炼阶段为了提高去雨方法的特征提取能力,神经网络对图像特征的提取须满足两点要求:1) 从不同的维度挖掘图像的内在信息;2) 兼顾图像的局部特征和全局特征,既保证局部细节的准确,又保证整体内容的自然连贯。为了满足这两个条件,网络的特征精炼阶段由多个分支结构组成,如图 5所示,每个分支分别通过不同深度的特征提取层挖掘多特征空间的信息;通过窗口自注意力机制和滑窗机制兼顾局部特征和全局关联;在最后将浅层特征和深层特征进行串联操作,送入下一阶段进行有效的整合。
2.2.1 特征精炼模块如图 6所示,特征精炼模块(feature refining module,FRM)首先利用串联的STB对图像的特征进行提炼,对输入X0,FRM对在这一阶段分步提取出的特征可以表达为
![]() |
图 6 FRM结构图 Fig.6 Architecture diagram of FRM |
![]() |
(4) |
其中,FSTBi是FRM中的第i层的STB;D是FRM中STB的数量上限,在此设置为6。在串联的STB后面连接了一个卷积层,并利用残差设计,将初始的输入与卷积层的输出进行相加,FRM的输入和输出不改变特征图的尺度,并将通道数保持在96。最终FRM的输出可表示为
![]() |
(5) |
其中,C表示卷积运算。这种设计有两个好处:1) STB擅长对图像的全局特征进行提炼,但是缺少卷积层的平移不变性等优势,增加卷积层可以弥补这一缺点;2) 残差结构防止了深层网络结构可能造成的梯度消失问题,减轻了神经网络的退化。
2.2.2 特征提取分支的设计对图像特征的学习能力是图像去雨网络的基础,只有充分挖掘图像的局部和全局特征,才能够实现对图像细节的保留和恢复,同时令恢复的内容与整体风格保持一致。特征精炼阶段采取多分支的设计,可以从不同的理解角度对带雨图像的特征进行挖掘和学习。提取不同维度的特征所需的网络深度不同,因此本研究设计了不同深度的分支,实现了浅层特征和深层特征的分别提取,具体地,设计了包含特征精炼模块数量分别为3、5、7的3个平行支路,最后这些支路输出的特征图通过串联的方式进行了融合,实现了浅层特征与深层特征的融合。
2.3 特征融合阶段为了提高去雨效果,网络需要对图像的浅层特征和深层特征进行有效的整合。这一阶段的网络将不同层次的特征进行融合,进而实现无雨图像的重建,如式(6)所示:
![]() |
(6) |
式中,FShallow、FIntermediate和FDeep分别代表特征精炼阶段深度为3、5、7的网络支路输出的特征;Concat代表特征图的串联操作,Conv表示核尺寸为3×3的卷积层,它将串联后的多支路特征进行初步融合。由于浅层特征往往包含丰富的细节信息,而深层特征则包含更多的语义信息,对不同层次的特征进行特征图串联,使得高层语义信息可以与细节信息协同工作,有利于去雨网络在局部上实现细节的恢复,同时保证整体风格的一致性。为了帮助精炼阶段的输出保留原始图像的高频信息,并稳定训练过程,利用长距离跳跃连接,将特征粗提取阶段的输出X′直接输送到特征融合阶段。FS(·)代表最后的融合函数,它由3个卷积层(卷积核大小均为3×3) 组成,3个卷积层之间使用Leaky ReLU激活函数增强网络的非线性表达能力,最后一个卷积层将96通道的特征图恢复到RGB图像的3通道。这里仍然使用残差学习,输出无雨图像的内容,最后的输出可以用式(7)来表达:
![]() |
(7) |
式中,Iout表示特征融合阶段的输出。
2.4 损失函数峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性(structure similarity index,SSIM)[26]是评价去雨效果时普遍使用的量化指标。本文设计损失函数的目的是提高生成图像与真实图像之间的PSNR和SSIM指标。PSNR通常用单位分贝来表示,它的计算公式为
![]() |
(8) |
式中,MAXI代表图像中一个像素颜色数值的峰值,MSE则代表均方误差,可以看出,MSE处于PSNR公式中的分母位置,所以要想提升PSNR的值,就要降低MSE的值。因此引入MSE损失函数(LOSSMSE),来提升网络预测图像的PSNR值。
SSIM一般用来度量去雨模型的预测结果x和对应的实际无雨图像y之间的相似性,它的计算公式为
![]() |
(9) |
其中,α,β,γ>0,l(x,y)用来比较x和y的亮度,c(x,y)比较两者之间的对比度,s(x,y)比较二者之间的结构,它们的计算公式为
![]() |
(10) |
其中,μx和μy、σx和σy分别代表x和y的平均值和标准差,σxy是x与y之间的协方差;C1、C2、C3是常数。SSIM的取值范围为[0, 1],其值越大,代表两幅图像的相似性越高。
为提升预测图像和真实图像之间的结构相似性,加强网络对细节的恢复能力,直接引入结构相似性损失函数(LOSSSSIM)对训练过程进行约束。
最终的损失函数为
![]() |
(11) |
其中,N是每次迭代输入的图像数量,在实际训练中N设置为96;λ1和λ2分别是MSE损失函数和SSIM损失函数的权重值,在探索了不同的权重组合后,确定λ1=1,λ2=0.02,通过联合损失函数,网络能够对图像的噪音水平和细节信息进行感知,进而提高生成图像的PSNR和SSIM值。
3 实验与结果 3.1 实验配置实验的硬件平台为装有两块NVIDIA Quadro RTXA6000型号GPU的深度学习工作站。本研究所有网络的训练和测试都是在该实验平台上开展的。工作站的内存大小为128 G,CPU型号为Intel Xeon silver 4210。软件环境上,采用Pytorch框架,Pycharm开发环境。采用ADAM优化器进行训练,学习速率设置为2×10-4,1 000个周期后模型收敛。选择峰值信噪比和结构相似性作为量化评价指标。
3.2 对比实验本研究在3个合成去雨数据集(即DID-MDN[27]、Rain100L[28]和Rain100H[28])上使用7种主流的方法来和本文的网络进行对比实验,分别是DerainNet[29],RESCAN(REcurrent Squeeze-and-excitation Context Aggregation Net)[8],DIDMDN(Density-aware Image De-raining method using a Multistream Dense Network)[27],UMRL(Uncertainty guided Multi-scale Residual Learning using cycle spinning network)[30],SEMI(SEMI-supervised transfer learning methodology)[31],PreNet(Progressive recurrent Network)[9],TransWeather(Transformer-based restoration of images degraded by adverse Weather conditions)[32]。为了保证公平,本文统一使用RainMixed作为训练集,该训练集从两项现有研究[33-34]中合成的数据集中随机挑选了约13 700图像。所有参与对比的方法都在此训练集下,分别使用官方发布的代码,并按照推荐的设置,重新进行了训练。在表 1中展示了这7种常用的去雨网络与本研究设计网络的对比结果。可以看出,基于Transformer的TransWeather方法参数量最多,而采用Swin Transformer的本文方法在降低了网络参数量的同时,提升了输出结果的PSNR和SSIM指标,但是由于本文网络比较深,且有多支路结构,发生的内存交换量较大,抵消掉了网络参数降低带来的优势,在运行时间上并不占优,这也是后续工作要解决的问题。实验结果表明在大雨数据集Rain100H中本研究提出的网络SDFGL拥有最好的结果,PreNet网络次之。它们的PSNR和SSIM指标分别为26.77,0.858(PreNet)和27.74,0.870(本文方法)。在Rain100L数据集下的方法得分排名与在Rain100H数据集下的排名相同,本文的SDFGL取得了最好的结果,PreNet网络结果次之。但是在DID-MDN数据集下,PreNet网络拥有最好的性能,本文去雨方法得分次之。其中,PreNet的PSNR和SSIM分别为31.36和0.911,这可能得益于PreNet采用的迭代去雨方式,其在雨流信息较复杂的DID-MDN数据集上取得了量化指标的最高分。
方法 | 数据集指标(PSNR/SSIM) | 时间/s | 参数量 | ||
Rain100H | Rain100L | DID-MDN | |||
DerainNet | 14.92/0.592 | 27.03/0.884 | 23.38/0.835 | 0.052 5 | 7.54×105 |
RESCAN | 26.36/0.786 | 29.80/0.881 | 30.51/0.881 | 0.017 9 | 1.49×105 |
DIDMDN | 17.35/0.524 | 25.23/0.741 | 29.65/0.901 | 0.102 7 | 3.72×105 |
UMRL | 26.01/0.832 | 29.18/0.923 | 30.55/0.910 | 0.053 6 | 9.84×105 |
SEMI | 16.56/0.486 | 25.03/0.842 | 26.05/0.822 | 0.025 8 | 1.75×105 |
TransWeather | 25.91/0.795 | 29.12/0.900 | 29.31/0.867 | 1.328 5 | 3.805 2×107 |
PreNet | 26.77/0.858 | 32.44/0.950 | 31.36/0.911 | 0.091 1 | 1.68×105 |
本文方法 | 27.74/0.870 | 34.44/0.961 | 30.60/0.881 | 2.289 3 | 2.899 1×107 |
图 7为不同去雨网络的可视化结果对比,每个方法的处理结果与相应的无雨图像之间的峰值信噪比、结构相似性指标按照PSNR/SSIM的形式标注在图像下方。第1行是输入的带雨图像,第2行~第5行是一些对比方法的去雨结果,第6行是本文方法的去雨结果,最后一行是实际的无雨图像(ground truth,GT)。通过对不同方法的结果进行比较,可以看出,提出的网络可以在保留大部分的结构和细节信息的前提下,实现雨流的有效去除。以图(a3)、图(b3)、图(c3)、图(d3)和图(e3)为例,基于CNN的方法没有很好地对背景和雨流信息进行区分,导致生成的结果仍然存在大量的雨流信息,虽然RESCAN方法在视觉效果上相对较好,但是其修复的纹理细节和真实的无雨图像之间有一定的差异,明显受到雨流信息的影响,而图(e3)中本文方法不仅在PSNR/SSIM指标上最优,从视觉效果上看,修复后的图像在细节和纹理上已经和真实图像基本一致,这说明,网络首先能够明确区分雨流和背景信息,保留无雨区域的背景内容,同时对雨流遮挡的内容进行修复;其次,网络能够对背景信息中的全局特征进行较好的理解,从而生成风格一致的修复内容。
![]() |
图 7 不同去雨方法的结果对比 Fig.7 Results comparisons among the deraining methods |
本研究还在一些真实的有雨图像上进行了对比实验,如图 8所示。这项实验对本文去雨方法在真实场景下的有效性进行了验证,为了方便比较,分别使用红色框体和绿色框体在图像中的对应位置进行了标注,并进行了放大。从图 8(a)的绿色框体的内容看出,本文方法不仅最好地去除了雨流,且保留了头发的纹理细节,而PreNet的结果中存在过平滑的现象,TransWeather的结果中仍然存在很多雨流;从红色框体中可以看出本文方法的去雨效果最优,PreNet和TransWeather的结果仍然有雨流的痕迹。从图 8(b)的红色框体看出,本文方法恢复的背景细节较好,PreNet和TransWeather的结果都存在一定的过平滑现象;从绿色框体的内容可以看出,本文方法将雨流去除得很干净,同时很好地恢复了路灯黑色底座上的花纹,TransWeather的结果中仍然存在着大量的雨流痕迹,而PreNet的结果已经很难看出底座上的花纹。综上所述,本文的方法在雨流的去除和背景细节的恢复这两方面表现更优。
![]() |
图 8 在真实场景下不同方法的去雨结果 Fig.8 Deraining results of the deraining methods in real-world scene |
为验证网络中多支路的作用,设计了一种单支路的变种网络,该变种网络将特征精炼部分的Swin Transformer模块从多分支结构变为单路结构(S-SDFGL);为验证特征精炼模块的有效性,将FRM模块中的6个STB替换为纯卷积层(核大小均为3×3),其他结构不变(SDNLF)。将两个变种网络和本研究提出的SDFGL在Rain100H和Rain00L两个数据集上进行了训练,并在对应的测试集上对网络性能进行了验证,采用了PSNR和SSIM这两个量化指标对测试结果进行评价,表 2记录了3种方法在两个数据集上的得分。通过表 2数据可以看出,SDFGL在量化评价指标上优于SDNLF和单路结构的S-SDFGL。在Rain100L数据集上,本文提出的SDFGL在峰值信噪比和结构相似性两个指标上均明显优于SDNLF和S-SDFGL;在Rain100H数据集上,采用FRM的两种网络的差距较小,峰值信噪比在小数点后两位开始出现差异,而结构相似性则完全一致。
数据集 | 网络 | PSNR | SSIM |
Rain100H | S-SDFGL | 28.73 | 0.89 |
SDNLF | 26.81 | 0.83 | |
SDFGL | 28.79 | 0.89 | |
Rain100L | S-SDFGL | 33.37 | 0.96 |
SDNLF | 32.92 | 0.89 | |
SDFGL | 35.00 | 0.97 |
本文提出了一种融合全局和局部特征的单幅图像去雨方法。与现有方法采用的卷积神经网络不同,本文方法引入了Swin Transformer机制,能够对图像的全局信息进行学习,以弥补卷积网络存在的感受野受限问题,同时也保留了图像的局部特征。此外,本文方法通过多支路的网络设计将不同特征空间的全局信息分别提取出来,最后将全局信息和局部信息进行融合,生成去雨图像。实验结果表明,本文提出的SDFGL去雨方法在合成数据集和真实图像上都取得了较好的去雨效果,与主流的去雨方法相比,在峰值信噪比和结构相似性指标上都具有一定的优势,改善了基于卷积神经网络的去雨方法感受野受限的问题。
[1] |
BARNUM P C, NARASIMHAN S, KANADE T. Analysis of rain and snow in frequency space[J]. International Journal of Computer Vision, 2010, 86(2): 256-274. |
[2] |
CHEN Y L, HSU C T. A generalized low-rank appearance model for spatio-temporally correlated rain streaks[C]//IEEE International Conference on Computer Vision. Piscataway, USA: IEEE, 2013: 1968-1975.
|
[3] |
丁名都, 李琳. 基于CNN和HOG双路特征融合的人脸表情识别[J]. 信息与控制, 2020, 49(1): 47-54. DING M D, LI L. CNN and HOG dual-path feature fusion for face expression recognition[J]. Information and Control, 2020, 49(1): 47-54. |
[4] |
陈国俊, 羊洁明, 葛洪伟. 基于可逆网络的单一图像超分辨率[J]. 信息与控制, 2021, 50(5): 602-608, 615. CHEN G J, YANG J M, GE H W. Single image super-resolution based on reversible network[J]. Information and Control, 2021, 50(5): 602-608, 615. DOI:10.13976/j.cnki.xk.2021.0463 |
[5] |
喻俊志, 孔诗涵, 孟岩. 水下视觉环境感知方法与技术[J]. 机器人, 2022, 44(2): 224-235. YU J Z, KONG S H, MENG Y. Methods and technologies for visual perception of underwater environment[J]. Robot, 2022, 44(2): 224-235. |
[6] |
ZHENG Y, YU X, LIU M, et al. Residual multiscale based single image deraining[C/OL]//British Machine Vision Conference. 2019[2022-07-09]. https://bmvc2019.org/wp-content/uploads/papers/0168-paper.pdf.
|
[7] |
FU X, LIANG B, HUANG Y, et al. Lightweight pyramid networks for image deraining[J]. IEEE transactions on neural networks and learning systems, 2019, 31(6): 1794-1807. |
[8] |
LI X, WU J, LIN Z, et al. Recurrent squeeze-and-excitation context aggregation net for single image deraining[C]//European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 254-269.
|
[9] |
REN D, ZUO W, HU Q, et al. Progressive image deraining networks: A better and simpler baseline[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2019: 3937-3946.
|
[10] |
LUO W, LI Y, URTASUN R, et al. Understanding the effective receptive field in deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems. Barcelona, Spain: MIT Press, 2016: 4898-4906.
|
[11] |
HANG Y, LIAO Q, YANG W, et al. Attention cube network for image restoration[C]//28th ACM International Conference on Multimedia. New York, USA: ACM, 2020: 2562-2570.
|
[12] |
ZHANG Y, TIAN Y, KONG Y, et al. Residual dense network for image restoration[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 43(7): 2480-2495. |
[13] |
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J/OL]. Advances in Neural Information Processing Systems. New York, USA: ACM, 2017[2022-06-29]. https://dl.acm.org/doi/10.5555/3295222.3295349.
|
[14] |
CHEN M, RADFORD A, CHILD R, et al. Generative pretraining from pixels[C]//International Conference on Machine Learning. Stockholm, Sweden: PMLR, 2020: 1691-1703.
|
[15] |
DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[C/OL]//International Conference on Learning Representations, May 3-7, 2021, Virtual Event, Austria. [2022-07-06]. https://www.xueshufan.com/publication/3119786062.
|
[16] |
LIU Z, LIN Y, CAO Y, et al. Swin Transformer: Hierarchical vision transformer using shifted windows[C]//IEEE/CVF International Conference on Computer Vision. Piscataway, USA: IEEE, 2021: 10012-10022.
|
[17] |
LIANG J, CAO J, SUN G, et al. SwinIR: Image restoration using Swin Transformer [C]//IEEE/CVF International Conference on Computer Vision. 2021: 1833-1844.
|
[18] |
Xu Y, Wei H, Lin M, et al. Transformers in computational visual media: A survey[J]. Computational Visual Media, 2022, 8: 33-62. DOI:10.1007/s41095-021-0247-3 |
[19] |
Gao L, Liu H, Yang M, et al. STransFuse: Fusing Swin Transformer and convolutional neural network for remote sensing image semantic segmentation[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 10990-11003. DOI:10.1109/JSTARS.2021.3119654 |
[20] |
HUANG J, FANG Y, WU Y, et al. Swin Transformer for fast MRI[J]. Neurocomputing, 2022, 493: 281-304. DOI:10.1016/j.neucom.2022.04.051 |
[21] |
LIN A L, CHEN B Z, XU J Y, et al. DS-TransUNET: Dual Swin Transformer U-net for medical image segmentation[J/OL]. IEEE Transactions on Instrumentation and Measurement, 2022[2022-07-03]. https://ieeexplore.ieee.org/document/9785614. DOI: 10.1109/TIM.2022.3178991.
|
[22] |
GU Y, PIAO Z, YOO S J. STHarDNet: Swin Transformer with HarDNet for MRI Segmentation[J/OL]. Applied Sciences, 2022[2022-01-04]. https://www.mdpi.com/2076-3417/12/1/468. DOI: 10.3390/app12010468.
|
[23] |
JIANG Y, ZHANG Y, LIN X, et al. SwinBTS: A method for 3D multimodal brain tumor segmentation using Swin Transformer[J/OL]. Brain Sciences, 2022[2022-06-17]. https://www.mdpi.com/2076-3425/12/6/797. DOI: 10.3390/brainsci12060797.
|
[24] |
WANG J, ZHANG Z, LUO L, et al. SwinGD: A robust grape bunch detection model based on Swin Transformer in complex vineyard environment[J/OL]. Horticulturae, 2021[2021-11-12]. https://www.mdpi.com/2311-7524/7/11/492. DOI: 10.3390/horticulturae7110492.
|
[25] |
JAMALI A, MAHDIANPARI M. Swin Transformer and deep convolutional neural networks for coastal wetland classification using Sentinel-1, Sentinel-2, and LiDAR data[J/OL]. Remote Sensing, 2022[2022-01-11]. https://www.mdpi.com/2072-4292/14/2/359. DOI: 10.3390/rs14020359.
|
[26] |
WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE transactions on image processing, 2004, 13(4): 600-612. DOI:10.1109/TIP.2003.819861 |
[27] |
ZHANG H, PATEL V M. Density-aware single image de-raining using a multi-stream dense network[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2018: 695-704.
|
[28] |
YANG W, TAN R T, FENG J, et al. Deep joint rain detection and removal from a single image[C]//IEEE conference on computer vision and pattern recognition. Piscataway, USA: IEEE, 2017: 1357-1366.
|
[29] |
FU X, HUANG J, DING X, et al. Clearing the skies: A deep network architecture for single-image rain removal[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2944-2956. |
[30] |
YASARLA R, PATEL V M. Uncertainty guided multi-scale residual learning-using a cycle spinning CNN for single image de-raining[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2019: 8405-8414.
|
[31] |
WEI W, MENG D, ZHAO Q, et al. Semi-supervised transfer learning for image rain removal[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2019: 3877-3886.
|
[32] |
VALANARASU J M J, YASARLA R, PATEL V M. TransWeather: Transformer-based restoration of images degraded by adverse weather conditions[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2022: 2353-2363.
|
[33] |
FU X, HUANG J, ZENG D, et al. Removing rain from single images via a deep detail network[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2017: 3855-3863.
|
[34] |
ZHANG H, SINDAGI V, PATEL V M. Image de-raining using a conditional generative adversarial network[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 30(11): 3943-3956. |