使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于多模态遥感影像的边缘感知引导显著性检测  PDF

  • 连远锋 1,2
  • 石旭 1
  • 江澄 3
1. 中国石油大学(北京),信息科学与工程学院,北京 102249; 2. 中国石油大学(北京),石油数据挖掘北京市重点实验室,北京 102249; 3. 北京空间机电研究所,北京 100094

中图分类号: TP751

最近更新:2023-03-31

DOI:10.11805/TKYDA2022216

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

针对多模态遥感影像显著性检测鲁棒性差和检测精确度不佳等问题,提出一种基于多模态边缘感知引导的显著性检测方法,该方法主要由多模态遥感影像显著检测主干网络、跨模态特征共享模块和边缘感知引导网络构成。通过在特征提取主干网络中加入跨模态特征共享模块,使得不同模态间特征通过共享交互实现协同增强,并且抑制具有缺陷的特征信息。基于边缘感知引导网络,通过边缘图监督模块来检测边缘特征的有效性,从而生成准确边界。在3种显著目标检测遥感图像数据集上进行实验,平均的Fβ、平均绝对误差(MAE)、Sm分数分别为0.917 6,0.009 5和0.919 9。实验结果表明,提出的多模态边缘感知引导网络(MEGNet)适用于在多模态场景中进行显著性检测。

显著性检测在智慧城市、军事、海洋资源勘探、环境监测、交通运输等领域得到了广泛应用,也是计算机视觉中一项具有挑战性的任[

1-3]。它模仿人类的视觉注意力,突出显示图像中最为显著的物体。目前,显著性检测方法主要分为传统机器学习方法和深度学习方法。传统基于手工特征的显著性检测方法又可分为自下而上的方[4-5]和自上而下的方[6-7]。LI[4]提出正则化随机游走排序的自底向上显著性检测方法(Regularized Random Walks Ranking,RRWR),该方法同时利用了基于区域的特征和图像细节。YUAN[5]在此基础上构建一种显著性回归校正过程(Reversion Correction,RC),有效地中和了边界相邻前景区域的负面影响。传统方法在复杂的场景中,由于方法中手工设计特征具有局限性,目标显著性检测的准确率降低。近年来,随着深度学习的发展,基于卷积神经网络(Convolutional Nerual Network,CNN)的模型使用像素级标注的显著性映射进行端到端训[8-11],使得显著性目标检测方法准确率进一步提升,LIU[12]在CNN中扩展池化操作的作用,逐步细化高级语义特征以增强检测准确率(PoolNet)。但这些方法仍然存在一些问题,首先显著性检测任务本质上是一个像素级的预测任务,而大多数显著性检测模型忽略了对目标边界信息的约[9,12-14],这会导致最终检测结果图具有模糊的边界细节,同时降低了检测准确率。为此,HOU[8]在跳连接结构中引入短连接整合低层级的边缘特征(Deeply Supervised Salient object detection with short connections,DSS),EGNet[11]将局部边缘信息与全局位置信息进行整合,而ZHANG[15]针对光学遥感图像构建端到端的密集注意流体网络(Dense Attention Fluid Network,DAFNet)。通过深入分析发现,深度学习网络的编码器在特征提取阶段提取出具有不同尺度和接收域的多层次特征,解码器在检测输出阶段通过上采样和反卷积操作逐步结合各个层次的特征。而在解码的同时,浅层特征提供详细目标边界信息,但其特征本身也包含大量的背景噪声。

近年来,空间遥感技术有了长足的进步,遥感数据的分辨力越来越高,遥感探测的方式也越来越丰富。多模态遥感图像指针对同一场景通过多源传感器(可见光、红外等)获取的图像。通过对这些具有合作性、互补性的图像进行协同处理来取得比只使用单模态遥感图像更好的结果。如HOU[

16]通过多种模态遥感图像的指数信息构建了一种星载建筑物热异常的检测提取算法。WU[17]则提出一种主动微调车辆检测模型,该模型利用了多源遥感图像中相同的对象信息。可见光遥感图像具有高分辨力和图像细节,显著性检测需要考虑克服目标复杂背景、云雾、太阳光等环境因素的影响。而红外遥感图像能够有效避免环境因素的干扰,从而给显著性检测任务提供更多的目标信息,但红外图像目标也存在边缘模糊和图像细节较少等问题。融合2种模态的显著检测技术能够促进模态间特征互补,从而提升显著检测的准确度。现有的多模态显著性检测模型采用元素相加或连接等线性方式来融合多模态特[18-19]。这种策略适用于背景较为简单的图像,图像中的显著目标与背景分界明显。对于高分辨力并且具有复杂背景的遥感图像,线性策略不能完全捕获模态间的互补信息并进行更为准确的显著性检测。在真实复杂场景的遥感图像成像过程中,由于可见光遥感图像和红外遥感图像各自的局限性,会生成具有缺陷的模态图像。而大多数多模态融合显著性检测方法忽略了模态图像受环境因素影响而包含干扰信息的问[20-21],从而导致了低准确度的检测结果。具有缺陷的模态图像需要在特征提取阶段进行筛选与校正,否则会导致低质量的特征信息在网络中传播,而后续基于特征融合解码的显著性检测网络输出结果与输入特征具有强相关性。具体来说,如果显著性检测网络的输入特征具有缺陷性,最终的检测结果有极大概率会含有噪声,从而导致准确性降低。为此,与大多数独立提取模态特征的方法不[22-23],通过构建多层跨模态特征共享模块,允许在编码过程中进行不同模态特征间的交互,进而使图像特征更具鲁棒性。

针对上述问题,本文提出一种多模态边缘感知引导网络(MEGNet),该网络通过在特征提取阶段中加入跨模态特征共享模块(CFSM),使得不同模态间特征通过共享交互协同增强表示,并且抑制具有缺陷的特征信息。同时,设计多模态特征融合模块(Multi-modal feature Merging Block,MMB)来解决线性融合策略应用于复杂背景的多模态遥感影像时效果不佳的问题。该模块通过引入通道注意力与双线性融合模块来捕获更多的模态间互补信息。通道注意力机制能够从语义层面学习特征之间的关联,筛选出与显著目标更为相关的通道特征。而双线性融合模块通过矩阵外积的计算方式,在每一维度都进行不同模态特征间的交互,可在后续的显著性检测中提供更为有效的特征信息。此外,本文的模型还加入边缘感知引导网络(EAGN),其中的边缘图监督模块用来检测边缘特征的有效性。经过有效性检验的边缘特征将集成到多尺度特征中,最后解码器聚合多组特征,生成边界准确且结构完整的显著性检测结果图。

1 数据与方法

1.1 实验数据

1.1.1 自建数据集

自建数据集的图片数据来自Landsat八号卫星,将这些图像中包含船舶、岛屿、油罐等显著对象的区域裁剪成512×512像素的图像切片,其分辨力为0.5~2.0 m/px,并在像素级对图片中的显著对象进行手动标注。数据集一共包含800张可见光遥感图像和800张红外遥感图像,其中600张可见光遥感影像和600张红外遥感图像构成训练集,而剩余的200张可见光遥感图像和200张红外遥感图像构成测试集。对于标签图像,由3名具有相关经验的工作者来进行显著对象标注,并且只保留半数以上工作者在标签图像中标注出的显著对象。与其他数据集相比,数据集图片检测目标更小、遥感场景更复杂,图1中展示了数据集中的部分样例图片。

图1  自建数据集

Fig.1  Our dataset

1.1.2 ORSSD数据集

ORSSD数据[

9]是从谷歌地球和其他数据集中收集了800个可见光遥感影像,并且在像素级对图像中的显著目标(岛屿、船舶、车辆等)进行手动标记。由于此数据集不含有红外遥感影像,为此对MEGNet网络结构进行修改,将其中的跨模态特征共享(Cross-modal Feature Sharing Module,CFSM)模块删除,网络结构由原来的双模态分支输入改为单模态分支输入,并针对此数据集进行了单独的训练。

1.1.3 EORSSD数据集

EORSSD数据[

15]是基于ORSSD数据集构建,具有更多的显著目标类型与图像数量。除了原始的800张可见光遥感影像,该数据集还包括来自谷歌地球的1 200张可见光遥感影像。同样此数据集不包含红外遥感影像,因此采用在1.1.2节介绍的相同策略进行此数据集的实验。

1.2 基于多模态边缘感知引导网络

图2所示,本文提出的多模态遥感影像显著性检测网络MEGNet由多模态编码器和解码器组成。在编码阶段借鉴了LIAO[

24]的研究,首先对输入的多模态遥感图像分别进行特征提取,并在此基础上引入跨模态特征共享模块(CFSM)来进行模态间协作增强学习。与前人相比,针对于分辨力更大的遥感影像,编码阶段提取多尺度特征将有助于后续的显著性检测。然后基于多模态特征融合模块(MMB)与边缘感知引导网络(EAGN),对输入的多尺度多模态特征(InfFi,OptFi)提取目标边缘特征并应用于后续的解码阶段。多模态联合特征在解码阶段通过反卷积层和上采样层来提升维度并与多尺度聚合特征Mj相结合,而边缘特征Fedge的加入提升了最终输出特征的边缘表达能力,进而生成高准确率的显著性检测结果图。

图2  多模态边缘感知引导显著性网络(MEGNet )

Fig.2  Architecture of MEGNet

1.2.1 跨模态特征共享模块

由于目标的可见光/红外单模态信息存在局限性,这会降低最终显著性检测结果的准确率。为此提出一种具有鲁棒性的多模态特征共享模块来抑制有缺陷的模态信息表达并提升跨模态融合特征的特征表达能[

24],相比于下采样卷积操作,CFSM针对遥感图像具有的复杂背景特性使用最大池化层来提取主要特征,过滤冗余特征。如图3所示,CFSM可分为特征交叉协作过程与特征共享增强过程。

图3  跨模态特征共享模块(CFSM)

Fig.3  Architecture of CFSM

首先,对由主干网络提取的多模态特征对(INFi,OPTi)使用卷积模块与最大池化层分别处理2种模态的特征。其中,可见光分支的输出特征分别是FoptFopt',红外分支的输出特征分别是FinfFinf'。然后,通过模态间特征的矩阵乘法实现交叉协作,定义为:

Minf=Finf'TFopt (1)
Mopt=Fopt'TFinf (2)

式中:()T为转置变换;Minf为红外模态交叉协作矩阵;Mopt为可见光模态交叉协作矩阵。在特征交叉融合过程中,CFSM能够实现不同模态间的特征相互增强。但是,由于单模态图像的信息局限性会使得参与交叉融合过程的特征包含冗余或者干扰信息,因此,这里使用动态权重层来重新加权多模态特征响应,其计算特征响应的表达式:

λcL=1H×Wa=1Hb=1WFcLa,b (3)

式中:(a,b)为目标的二维坐标;λcL为第c个通道的特征响应重要性;FcL为多通道特征。根据特征响应重要性使用动态权重层自动聚合多模态特征FI1LFO1L,其过程定义为:

ωIL,ωOL=FCLReLUCλIL,λOL (4)

式中:LReLU为LeakyReLU激活函数;C为通道拼接函数;FC为全连接层;ωILωOL分别为每个通道相对模态的重要性。然后根据计算出的通道重要性对输入的特征图进行重加权计算:

INFi'=INFi+ωILMinf (5)
OPTi'=OPTi+ωOLMopt (6)

式中:为元素相乘;INFi'OPTi'分别为红外分支与可见光分支的跨模态交互输出结果。CFSM作为编码阶段的模态间交互模块可以减轻单模态数据局限性所带来的负面影响。

1.2.2 多模态特征融合模块

遥感影像目标检测通常具有背景复杂、显著目标尺度小等特点,而红外模态图像与可见光模态图像在遇到环境干扰时会产生较大的模态图像差距。为此设计一种多模态特征融合模块(MMB)来提取跨模态互补信[

25],促进模态间特征的融合,相比于前人的研究,红外图像特征与可见光图像特征在经过通道拼接操作后引入通道注意力来自适应地调节特征通道权重,以此强化高效的特征通道。如图4所示,MMB在线性融合策略的基础上,加入双线性多模态融合操作与通道注意力机制。首先针对输入双模态特征对(InfFi,OptFi)使用双线性融合(矩阵外积)的方式进行融合,表示为:

Fibfa,b=OptFia,bInfFia,bT (7)

式中为矩阵外积。矩阵外积操作可以提取单个模态的局部特征与另一个模态的全部特征进行融合,从而作为跨模态特征的互补信息。对2种模态的拼接特征,使用通道注意力机制来筛选出具有语义信息的通道特征。

图4  MMB结构

Fig.4  Architecture of the MMB

虽然单一模态图像提取的特征具有局限性,但是单一模态特征也能够为显著性检测提供有效信[

26],而MMB的输入特征都经过了CFSM模块的筛选。为此在MMB的特征输出阶段通过拼接层将模态间特征结合输出:

MFi=CFimSigmoidFiavg+Fimax,Fiinf,Fiopt (8)

式中:MFi为输出的多模态融合特征;Sigmoid为激活函数;Fim为矩阵外积结果Fibf经过卷积模块输出的结果。MMB模块增强了多模态特征之间的交互作用,同时保留有效单模态的特征信息,可用于后续的边缘感知监督模块与显著性检测结果输出。

1.2.3 边缘感知引导网络

本文所提出的编码器—解码器主干结构虽然能够生成显著性检测结果图,但其生成的结果图内部边界模糊,且含有一定的噪声。为此,受到提取边缘特征辅助显著性检测的相关文[

11,27]与特征金字塔网络(Feature Pyramid Network,FPN)结构的启发,构建一种输出多尺度特征与边缘特征的边缘感知引导网络(EAGN)辅助MEGNet生成更为精确的显著性检测结果图。FPN结构能够自下而上地增强特征层次,保障特征信息全面性。而边缘特征引入使得最终输出的显著性检测结果图边界清晰。如图5所示,该网络可细分为多尺度特征学习模块与边缘感知模块。首先,多尺度特征学习模块根据主干网络提取的多模态特征(INFi,OPTi)输出多尺度聚合特征Mj,边缘感知模块使用这些聚合特征生成用于监督训练的边缘图。同时,边缘感知模块输出边缘特征用于解码阶段与多尺度聚合特征和编码器的输出特征进行融合,进而生成更为准确的显著性检测图。

图5  EAGN结构

Fig.5  Architecture of EAGN

多尺度特征学习模块用来对融合的4组多模态融合特征MFi做进一步处理。每组特征首先通过具有不同参数的空洞卷积层进行处理,这里采用的空洞卷积层具有3种参数,卷积核为1×1,空洞率为0,卷积核为3×3,空洞率为3和卷积核为3×3,空洞率为5。每组特征通过空洞卷积层后使用拼接层在通道维度对特征进行堆叠。空洞卷积层的使用使得多尺度学习模块在不增加内核大小的情况下捕获更为丰富的上下文数据。此外,多尺度学习模块采用浅层与深层特征相结合的结构是因为浅层特征有助于捕获图像细节,而深层特征有助于捕获图像语义信息。

现有针对红外遥感影像与可见光遥感影像的多模态显著性检测方法较少关注显著目标的边界信息,这会导致输出的显著性检测结果图目标边界模糊。为此,本文引入关注边界信息的边缘感知模块,用于克服模糊边界的问题,生成具有清晰边界的显著性检测结果图。首先针对不同尺度的特征使用上采样层变换到相同的维度,并使用拼接层进行特征聚合,结果称为Ft。然后通过通道注意机制,对Ft进行进一步处理,过程如下:

Fedge=UpConvrConvsMaxPConvrFtConvrFt+ConvrFt (9)

式中:MaxP为最大池化层;Convr代表卷积模块(卷积层+批归一化层+ReLU层);Convs代表卷积模块(卷积层+批归一化层+Sigmoid层);Up为上采样层;Fedge代表输出的边缘特征。同时,边缘特征将通过上采样层输出边缘检测图,并与边缘真实图通过损失函数进行监督训练。借助边缘特征与多尺度聚合特征,生成最终显著性检测结果图的过程如下:

FSi=UpCUpConvtX,Mi (10)

式中:Mi为多尺度聚合特征;Convt为反卷积模块(反卷积层+批归一化层+ReLU层);X为编码器输出特征。最后借助于边缘特征Fedge,对FSi进一步处理,生成最终的显著性检测图Sm,即:

Sm=UpConvrCFedge,ConvrFS1+ConvtConvrFS2+ConvtFS3 (11)

最终的显著性检测结果图与显著性检测真实图也将通过损失函数进行监督训练。在多尺度学习模块与边缘感知模块的共同作用下,本文方法的输出特征会带有图像细节信息、语义信息和边缘信息,进而输出高准确度的显著性检测结果图。

1.3 损失函数

为输出高准确度的显著性检测结果图,这里采用交叉熵损失函数实现边缘图监督与显著性检测图的监督训练。边缘图Em是由边缘特征Fedge通过上采样操作生成的,交叉熵的损失函数分别定义如下:

Ledge(Em)=-i=1W×HGe1ilogEmi+Ge0ilog1-Emi (12)
Lobject(Sm)=-j=1W×HGs1jlogSmj+Gs0jlog1-Smj (13)

式中:Ge1Ge0分别为边缘真实图值为1和为0的像素;Gs1Gs0分别为显著性检测真实图值为1和为0的像素。

Sm定义为:

Sm=αSo+(1-α)Sr (14)

式中SoSr分别为预测图像与真实图像之间的对象感知和区域感知结构相似性。本文设置α为0.5[

28]

MEGNet的总体损失函数为:

LMES=θ1LedgeEm+θ2LobjectSm (15)

式中θ1θ2分别代表2项损失函数的系数。这里,θ1的值为0.35,θ2的值为0.65。

2 结果与分析

2.1 训练环境配置

本文采用2块NVIDIA GeForce GTX1080Ti GPU和1颗16核CPU在内存为32 GB的服务器平台进行模型训练。模型训练使用Pytorch深度学习框架,动量设置为0.9,权重衰减设置为0.000 5。模型的迭代次数为1 000个批次,批处理大小为2。前750个批次学习率设置为0.001,后250个批次学习率设置为0.000 1。采用Adam优化[

29]用于优化模型,参数设置如下:β1=0.9,β2=0.999,ε=1×10-8

2.2 评价指标

本文使用P-R曲线、MAE分数、FβSm四种指标来评价不同方法的性能。显著性检测可以通过0~255的整数将其阈值划分为一些二进制显著性掩码,再与真实值进行比较,从而获得精确度和查全率。以精确率为纵轴,召回率为横轴绘制P-R曲线。Fβ是一个整体性能指标,计算过程为:

Fβ=(1+β2)Precision×Recallβ2Precision+Recall (16)

式中β2为0.3[

28]。MAE分数定义为:

MAE=1ni=1n|G(x)i-yi| (17)

式中:n为图片的像素数量;G(x)iyi分别为显著性检测图像和真实图像在像素i处的像素值。

2.3 结果分析

为了验证本文所提出的网络MEGNet的有效性,将其与PoolNet[

12]、DAFNet-V[15]、DAFNet-R[15]、DSS[8]、EGNet[11]、RCRR[5]和RRWR[4]等方法进行对比。上述方法均基于自建数据集、ORSSD数据集和EORSSD数据集使用默认参数进行了相应的再训练。

图6给出了MEGNet与其他方法在3种不同遥感图像数据集上的P-R曲线。当召回率接近于1时,MEGNet将产生更高的准确性,这说明假阳性较低,同时P-R曲线展示出的优势也说明MEGNet输出的显著性检测图与真实图像更为接近。表1列出了不同方法在3种数据集下各项评价指标的具体数值,MEGNet展现出了具有良好的检测效果。可以看出,本文所提出的方法在自建数据集上的3项评价指标都要优于其他方法,而在ORSSD数据集与EORSSD数据集上也具有较好的结果。同时,本文提出的方法在包含多模态图像的数据集上的各项评价指标与其他方法相比有较大的数值提升,这说明多模态的特征提取策略与跨模态特征共享模块在多模态显著性检测中是有效的。在其他方法中,DAFNet-R的3项评价指标分数较优,该方法在自建数据集上的Fβ数值为0.885 5,MAE分数为0.011 3,Sm数值为0.916 4。而MEGNet在3项指标上都取得了较大的提升,其中在Fβ上提升了2.3%,MAE分数提升了0.2%,在Sm上提升了1.1%。

图6  不同显著性检测方法在3种数据集上的P-R曲线实验结果

Fig.6  P-R curves of different salient detection methods on three datasets

表1  不同显著性检测方法在3种数据集上的各项评价指标实验结果
Table1  Experimental results of evaluation indicators for different salient detection methods on three datasets
evaluation indicatorsORSSDEORSSDour dataset
Fβ()MAE()Sm()Fβ()MAE()Sm()Fβ()MAE()Sm()
DAFNet-V[15] 0.917 4 0.012 5 0.919 1 0.892 2 0.006 0 0.916 7 0.868 1 0.015 3 0.912 1
DAFNet-R[15] 0.923 5 0.010 6 0.918 8 0.906 0 0.005 3 0.918 5 0.885 5 0.011 3 0.916 4
PoolNet[12] 0.791 1 0.035 8 0.840 3 0.781 2 0.020 9 0.821 8 0.753 6 0.037 9 0.800 8
DSS[8] 0.783 8 0.036 3 0.826 2 0.715 8 0.018 6 0.787 4 0.646 7 0.039 7 0.737 9
EGNet[11] 0.843 8 0.021 6 0.872 1 0.806 0 0.010 9 0.860 2 0.757 8 0.026 8 0.849 3
RCRR[5] 0.594 4 0.127 7 0.684 9 0.449 5 0.164 4 0.601 3 0.368 7 0.187 9 0.512 8
RRWR[4] 0.595 0 0.132 4 0.683 5 0.449 5 0.167 7 0.599 7 0.370 5 0.192 3 0.507 6
proposed 0.935 5 0.011 7 0.924 1 0.913 2 0.005 7 0.918 9 0.909 1 0.009 1 0.925 5

图7图8给出了具有不同图像属性的图像显著性检测结果,如小目标、大目标、多目标和中心偏差等。图7第3行的测试图像和图8的第3行测试图像都具有复杂的背景,其他方法输出的检测结果包含较多的虚警目标或未能检测出显著目标,而MEGNet输出的检测结果不仅包含显著目标,也在一定程度上减少了虚警目标。图7第6行的测试图像和图8第4行的测试图像中的显著目标较大,其他方法输出的检测结果包含模糊的边界,而MEGNet由于边缘感知引导网络的加入,输出的检测结果具有清晰的边界。从图中可看出,MEGNet在具有各种属性的图像中都表现良好,并且比大多数其他方法都更接近真实图像。

图7  在可见光遥感影像中不同显著性检测方法的可视化结果 (a) 输入可见光遥感图像; (b) 显著性检测真实图像; (c) DAFNet-V; (d) DAFNet-R;(e) PoolNet; (f) DSS; (g) EGNet; (h) RCRR; (i) RRWR; (j) 本文方法

Fig.7  Visualization results of different saliency detection methods in optical remote sensing images (a) input optical remote sensing images;(b) salient detection ground truth images; (c) DAFNet-V; (d) DAFNet-R; (e) PoolNet; (f) DSS; (g) EGNet; (h) RCRR; (i) RRWR; (j) our method

图8  在红外遥感影像中不同显著性检测方法的可视化结果 (a) 输入红外遥感图像; (b) 显著性检测真实图像; (c) DAFNet-V; (d) DAFNet-R;(e) PoolNet; (f) DSS; (g) EGNet; (h) RCRR; (i) RRWR; (j) 本文方法

Fig.8  Visualization results of different saliency detection methods in infrared remote sensing images (a) input infrared remote sensing images; (b) salient detection ground truth images; (c) DAFNet-V; (d) DAFNet-R; (e) PoolNet; (f) DSS; (g) EGNet; (h) RCRR; (i) RRWR; (j) our method

2.4 消融实验

为了验证边缘感知引导网络的有效性,此处对MEGNet进行了模型分析与消融实验。EAGN根据输入的多尺度模态融合特征MFi,输出多尺度聚合特征Mj与边缘特征Fedge,针对2处在MEGNet的特征添加分别进行消融实验,不添加多尺度聚合特征、不添加边缘特征和2种特征都不添加的模型分别称之为NetMwithoutNetedgewithoutNetallwithout

表2图9所示,本文模型在评价指标和可视化结果上都明显优于上述3种模型,多尺度聚合特征的加入减少了背景划分为显著目标的错误,而边缘特征指导输出更加准确的结果图。同时,前2种添加部分特征的模型生成的结果优于最后一种2种特征都不添加的模型,说明边缘特征信息与多尺度聚合特征信息在MEGNet中的重要性。

表2  不同模型在自建数据集上的显著性检测实验中各项评价指标平均实验结果
Table2  Average experimental results of each evaluation metric in the salient detection experiment of different models on the self-made dataset
evaluation indicatorsFβ()MAE()Sm()
NetMwithout 0.888 6 0.010 3 0.903 0
Netedgewithout 0.857 7 0.011 7 0.891 4
Netallwithout 0.831 8 0.012 1 0.875 9
MEGNet 0.909 1 0.009 1 0.925 5

图9  MEGNet消融实验的可视化结果对比 (a) 输入图像; (b) 显著性检测真实图像; (c) Netedgewithout; (d) NetMwithout; (e) Netallwithout; (f) MEGNet

Fig.9  Comparison of visualization results of MEGNet ablation experiment (a) input images;(b) salient detection ground truth images;

(c) Netedgewithout(d) NetMwithout; (e) Netallwithout;(f) MEGNet

3 结论

针对多模态遥感影像显著性检测精确度不佳、鲁棒性差等问题,提出了一种面向多模态遥感影像的显著性检测方法MEGNet,该方法通过跨模态特征共享模块CFSM、多模态特征融合模块MMB以及边缘感知引导网络EAGN实现高准确度的显著性检测。具体来说,MEGNet的主干网络首先对输入的双模态遥感影像对进行特征提取与编码,以此获得的多尺度双模态特征输入至CFSM模块与MMB模块进行进一步处理。CFSM模块能够抑制具有缺陷的特征信息进一步在网络中传播,而MMB的特征融合策略相比于线性融合策略会捕获更多的模态间互补信息。其次,EAGN模块针对MMB输出的多模态融合特征进一步提取边缘特征,并与边缘图真实图像进行监督训练,确保加入至主干解码网络的边缘特征的正确性。最后的主干解码网络融合多尺度聚合特征与边缘特征使用上采样层输出最终显著性检测结果图。实验结果表明,基于多模态遥感影像的显著性检测方法MEGNet在可视化分析和评价指标分析中都取得了具有竞争力的结果;同时,针对边缘感知引导网络的消融实验证明,多尺度聚合特征与边缘特征的加入在MEGNet显著性检测实验中具有显著提升评价指标的作用。

虽然MEGNet具有较高的显著性检测效果,但检测速率相比于其他方法并无优势。未来工作中将着重研究基于知识蒸馏的网络模型优化,特别是多模态特征融合模块中矩阵外积的优化。

参考文献

1

罗群,刘俊. 基于光谱尺度空间与管道滤波的红外目标检测[J].太赫兹科学与电子信息学报, 2022,20(4):346-353. [百度学术] 

LUO Qun,LIU Jun. Infrared target detection algorithm based on fast spectral scale space and dynamic pipeline filtering[J]. Journal of Terahertz Science and Electronic Information Technology, 2022,20(4):346-353.doi:10.11805/TKYDA2020605. [百度学术] 

2

牛文渊,黄先锋,金洁,. 小型文物摄影测量三维建模主体对象识别[J]. 遥感学报, 2021,25(12):2409-2420. [百度学术] 

NIU Wenyuan, HUANG Xianfeng,JIN Jie,et al. Recognition method of the main object of three-dimensional photogrammetric modeling of cultural relics[J]. National Remote Sensing Bulletin, 2021,25(12):2409-2420.doi:10.11834/jrs.20211185. [百度学术] 

3

于野,艾华,贺小军,. A-FPN算法及其在遥感图像船舶检测中的应用[J]. 遥感学报, 2020,24(2):107-115. [百度学术] 

YU Ye,AI Hua, HE Xiaojun,et al. Attention-based feature pyramid networks for ship detection of optical remote sensing image[J]. National Remote Sensing Bulletin, 2020,24(2):107-115.doi:10.11834/jrs.20208264. [百度学术] 

4

LI Changyang,YUAN Yuchen,CAI Weidong,et al. Robust saliency detection via regularized random walks ranking[C]// IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston,MA,USA:IEEE, 2015:2710-2717. [百度学术] 

5

YUAN Yuchen,LI Changyang,KIM Jinman,et al. Reversion correction and regularized random walk ranking for saliency detection[J]. IEEE Transactions on Image Processing, 2017,27(3):1311-1322. [百度学术] 

6

刘亚宁,吴清,魏雪. 基于流行排序的前景背景显著性检测算法[J]. 科学技术与工程, 2018,18(18):74-81. [百度学术] 

LIU Yaning,WU Qing,WEI Xue. Saliency detection combined foreground with background based on manifold ranking[J]. Science Technology and Engineering, 2018,18(18):74-81. [百度学术] 

7

戴玉超,张静,PORIKLI F,. 深度残差网络的多光谱遥感图像显著目标检测[J]. 测绘学报, 2018,47(6):873-881. [百度学术] 

DAI Yuchao,ZHANG Jing,PORIKLI F,et al. Salient object detection from multi-spectral remote sensing images with deep residual network[J]. Acta Geodaetica et Cartographica Sinica, 2018,47(6):873-881.doi:10.11947/j.AGCS.2018.20170633. [百度学术] 

8

HOU Qibin,CHENG Mingming,HU Xiaowei,et al. Deeply supervised salient object detection with short connections[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. Hawaii,USA:IEEE, 2017:3203-3212. [百度学术] 

9

LI Chongyi,CONG Runmin,HOU Junhui,et al. Nested network with two-stream pyramid for salient object detection in optical remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019,57(11):9156-9166. [百度学术] 

10

王福斌,刘贺飞,王蕊,. 烧结断面火焰图像多核Boosting显著性检测[J]. 计算机辅助设计与图形学学报, 2021,33(9):1466-1474. [百度学术] 

WANG Fubin,LIU Hefei,WANG Rui,et al. Multiple kernel boosting saliency detection of flame image of sintering section[J]. Journal of Computer-Aided Design & Computer Graphics, 2021,33(9):1466-1474.doi:10.3724/SP.J.1089.2021.18686. [百度学术] 

11

ZHAO Jiaxing,LIU Jiangjiang,FAN Dengping,et al. EGNet:Edge Guidance Network for salient object detection[C]// IEEE/CVF International Conference on Computer Vision. Seoul,Korea(South):IEEE, 2019:8779-8788. [百度学术] 

12

LIU Jiangjiang,HOU Qibin,CHENG Mingming,et al. A simple pooling-based design for real-time salient object detection[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA,USA:IEEE, 2019:3917-3926. [百度学术] 

13

陈正,赵晓丽,张佳颖,. 基于跨模态特征融合的RGB-D显著性目标检测[J]. 计算机辅助设计与图形学学报, 2021,33(11):1688-1697. [百度学术] 

CHEN Zheng,ZHAO Xiaoli,ZHANG Jiaying,et al. RGB-D image saliency detection based on cross-model feature fusion[J]. Journal of Computer-Aided Design & Computer Graphics, 2021,33(11):1688-1697.doi:10.3724/SP.J.1089.2021.18710. [百度学术] 

14

LI Chongyi,CONG Runmin,GUO Chunle,et al. A parallel down-up fusion network for salient object detection in optical remote sensing images[J]. Neurocomputing, 2020(415):411-420. [百度学术] 

15

ZHANG Qijian,CONG Runmin,LI Chongyi,et al. Dense attention fluid network for salient object detection in optical remote sensing images[J]. IEEE Transactions on Image Processing, 2020(30):1305-1317. [百度学术] 

16

侯舒维,郭宝龙,李晓博,. 城区建筑物的在轨热异常检测提取[J]. 太赫兹科学与电子信息学报, 2022,20(5):498-505. [百度学术] 

HOU Shuwei,GUO Baolong,LI Xiaobo,et al. On-orbit thermal anomaly detection and extraction of urban buildings[J]. Journal of Terahertz Science and Electronic Information Technology, 2022,20(5):498-505.doi:10.11805/TKYDA2021023. [百度学术] 

17

WU Xin,LI Wei,HONG Danfeng,et al. Vehicle detection of multi-source remote sensing data using active fine-tuning network[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020(167):39-53. [百度学术] 

18

HAN Junwei,CHEN Hao,LIU Nian,et al. CNNs-based RGB-D saliency detection via cross-view transfer and multiview fusion[J]. IEEE Transactions on Cybernetics, 2017,48(11):3171-3183. [百度学术] 

19

CHEN Hao,LI Youfu. Progressively complementarity-aware fusion network for RGB-D salient object detection[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA:IEEE, 2018:3051-3060. [百度学术] 

20

GAO Wei,LIAO Guibiao,MA Siwei,et al. Unified information fusion network for multi-modal RGB-D and RGB-T salient object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021,32(4):2091-2106. [百度学术] 

21

TU Zhengzheng,LI Zhun,LI Chenglong,et al. Multi-interactive dual-decoder for RGB-thermal salient object detection[J]. IEEE Transactions on Image Processing, 2021(30):5678-5691. [百度学术] 

22

LIANG Fangfang,DUAN Lijuan,MA Wei,et al. A deep multimodal feature learning network for RGB-D salient object detection[J]. Computers & Electrical Engineering, 2021(92):107006. [百度学术] 

23

ZHANG Qiang,HUANG Nianchang,YAO Lin,et al. RGB-T salient object detection via fusing multi-level CNN features[J]. IEEE Transactions on Image Processing, 2019(29):3321-3335. [百度学术] 

24

LIAO Guibiao,GAO Wei,LI Ge,et al. Cross-collaborative fusion-encoder network for robust RGB-thermal salient object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022,32(11):7646-7661. [百度学术] 

25

HUANG Nianchang,YANG Yang,ZHANG Dingwen,et al. Employing bilinear fusion and saliency prior information for RGB-D salient object detection[J]. IEEE Transactions on Multimedia, 2021(24):1651-1664. [百度学术] 

26

HUANG Nianchang,LIU Yi,ZHANG Qiang,et al. Joint cross-modal and unimodal features for RGB-D salient object detection[J]. IEEE Transactions on Multimedia, 2020(23):2428-2441. [百度学术] 

27

LIU Zhengyi,TAN Yacheng,HE Qian,et al. SwinNet:Swin transformer drives edge-aware RGB-D and RGB-T salient object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021,32(7):4486-4497. [百度学术] 

28

FAN Dengping,CHENG Mingming,LIU Yun,et al. Structure-measure:a new way to evaluate foreground maps[C]// IEEE International Conference on Computer Vision. Venice,Italy:IEEE, 2017:4548-4557. [百度学术] 

29

BORJI A,CHENG M M,JIANG H,et al. Salient object detection:a benchmark[J]. IEEE Transactions on Image Processing, 2015, 24(12):5706-5722. [百度学术]