摘要
针对多模态遥感影像显著性检测鲁棒性差和检测精确度不佳等问题,提出一种基于多模态边缘感知引导的显著性检测方法,该方法主要由多模态遥感影像显著检测主干网络、跨模态特征共享模块和边缘感知引导网络构成。通过在特征提取主干网络中加入跨模态特征共享模块,使得不同模态间特征通过共享交互实现协同增强,并且抑制具有缺陷的特征信息。基于边缘感知引导网络,通过边缘图监督模块来检测边缘特征的有效性,从而生成准确边界。在3种显著目标检测遥感图像数据集上进行实验,平均的、平均绝对误差(MAE)、分数分别为0.917 6,0.009 5和0.919 9。实验结果表明,提出的多模态边缘感知引导网络(MEGNet)适用于在多模态场景中进行显著性检测。
显著性检测在智慧城市、军事、海洋资源勘探、环境监测、交通运输等领域得到了广泛应用,也是计算机视觉中一项具有挑战性的任
近年来,空间遥感技术有了长足的进步,遥感数据的分辨力越来越高,遥感探测的方式也越来越丰富。多模态遥感图像指针对同一场景通过多源传感器(可见光、红外等)获取的图像。通过对这些具有合作性、互补性的图像进行协同处理来取得比只使用单模态遥感图像更好的结果。如HOU
针对上述问题,本文提出一种多模态边缘感知引导网络(MEGNet),该网络通过在特征提取阶段中加入跨模态特征共享模块(CFSM),使得不同模态间特征通过共享交互协同增强表示,并且抑制具有缺陷的特征信息。同时,设计多模态特征融合模块(Multi-modal feature Merging Block,MMB)来解决线性融合策略应用于复杂背景的多模态遥感影像时效果不佳的问题。该模块通过引入通道注意力与双线性融合模块来捕获更多的模态间互补信息。通道注意力机制能够从语义层面学习特征之间的关联,筛选出与显著目标更为相关的通道特征。而双线性融合模块通过矩阵外积的计算方式,在每一维度都进行不同模态特征间的交互,可在后续的显著性检测中提供更为有效的特征信息。此外,本文的模型还加入边缘感知引导网络(EAGN),其中的边缘图监督模块用来检测边缘特征的有效性。经过有效性检验的边缘特征将集成到多尺度特征中,最后解码器聚合多组特征,生成边界准确且结构完整的显著性检测结果图。
自建数据集的图片数据来自Landsat八号卫星,将这些图像中包含船舶、岛屿、油罐等显著对象的区域裁剪成512512像素的图像切片,其分辨力为0.5~2.0 m/px,并在像素级对图片中的显著对象进行手动标注。数据集一共包含800张可见光遥感图像和800张红外遥感图像,其中600张可见光遥感影像和600张红外遥感图像构成训练集,而剩余的200张可见光遥感图像和200张红外遥感图像构成测试集。对于标签图像,由3名具有相关经验的工作者来进行显著对象标注,并且只保留半数以上工作者在标签图像中标注出的显著对象。与其他数据集相比,数据集图片检测目标更小、遥感场景更复杂,

图1 自建数据集
Fig.1 Our dataset
ORSSD数据
如

图2 多模态边缘感知引导显著性网络(MEGNet )
Fig.2 Architecture of MEGNet
由于目标的可见光/红外单模态信息存在局限性,这会降低最终显著性检测结果的准确率。为此提出一种具有鲁棒性的多模态特征共享模块来抑制有缺陷的模态信息表达并提升跨模态融合特征的特征表达能

图3 跨模态特征共享模块(CFSM)
Fig.3 Architecture of CFSM
首先,对由主干网络提取的多模态特征对使用卷积模块与最大池化层分别处理2种模态的特征。其中,可见光分支的输出特征分别是和,红外分支的输出特征分别是和。然后,通过模态间特征的矩阵乘法实现交叉协作,定义为:
(1) |
(2) |
式中:为转置变换;Minf为红外模态交叉协作矩阵;为可见光模态交叉协作矩阵。在特征交叉融合过程中,CFSM能够实现不同模态间的特征相互增强。但是,由于单模态图像的信息局限性会使得参与交叉融合过程的特征包含冗余或者干扰信息,因此,这里使用动态权重层来重新加权多模态特征响应,其计算特征响应的表达式:
(3) |
式中:为目标的二维坐标;为第个通道的特征响应重要性;为多通道特征。根据特征响应重要性使用动态权重层自动聚合多模态特征和,其过程定义为:
(4) |
式中:为LeakyReLU激活函数;C为通道拼接函数;为全连接层;和分别为每个通道相对模态的重要性。然后根据计算出的通道重要性对输入的特征图进行重加权计算:
(5) |
(6) |
式中:为元素相乘;和分别为红外分支与可见光分支的跨模态交互输出结果。CFSM作为编码阶段的模态间交互模块可以减轻单模态数据局限性所带来的负面影响。
遥感影像目标检测通常具有背景复杂、显著目标尺度小等特点,而红外模态图像与可见光模态图像在遇到环境干扰时会产生较大的模态图像差距。为此设计一种多模态特征融合模块(MMB)来提取跨模态互补信
(7) |
式中为矩阵外积。矩阵外积操作可以提取单个模态的局部特征与另一个模态的全部特征进行融合,从而作为跨模态特征的互补信息。对2种模态的拼接特征,使用通道注意力机制来筛选出具有语义信息的通道特征。

图4 MMB结构
Fig.4 Architecture of the MMB
虽然单一模态图像提取的特征具有局限性,但是单一模态特征也能够为显著性检测提供有效信
(8) |
式中:为输出的多模态融合特征;为激活函数;为矩阵外积结果经过卷积模块输出的结果。MMB模块增强了多模态特征之间的交互作用,同时保留有效单模态的特征信息,可用于后续的边缘感知监督模块与显著性检测结果输出。
本文所提出的编码器—解码器主干结构虽然能够生成显著性检测结果图,但其生成的结果图内部边界模糊,且含有一定的噪声。为此,受到提取边缘特征辅助显著性检测的相关文

图5 EAGN结构
Fig.5 Architecture of EAGN
多尺度特征学习模块用来对融合的4组多模态融合特征做进一步处理。每组特征首先通过具有不同参数的空洞卷积层进行处理,这里采用的空洞卷积层具有3种参数,卷积核为1×1,空洞率为0,卷积核为3×3,空洞率为3和卷积核为3×3,空洞率为5。每组特征通过空洞卷积层后使用拼接层在通道维度对特征进行堆叠。空洞卷积层的使用使得多尺度学习模块在不增加内核大小的情况下捕获更为丰富的上下文数据。此外,多尺度学习模块采用浅层与深层特征相结合的结构是因为浅层特征有助于捕获图像细节,而深层特征有助于捕获图像语义信息。
现有针对红外遥感影像与可见光遥感影像的多模态显著性检测方法较少关注显著目标的边界信息,这会导致输出的显著性检测结果图目标边界模糊。为此,本文引入关注边界信息的边缘感知模块,用于克服模糊边界的问题,生成具有清晰边界的显著性检测结果图。首先针对不同尺度的特征使用上采样层变换到相同的维度,并使用拼接层进行特征聚合,结果称为。然后通过通道注意机制,对进行进一步处理,过程如下:
(9) |
式中:为最大池化层;代表卷积模块(卷积层+批归一化层+ReLU层);代表卷积模块(卷积层+批归一化层+Sigmoid层);为上采样层;代表输出的边缘特征。同时,边缘特征将通过上采样层输出边缘检测图,并与边缘真实图通过损失函数进行监督训练。借助边缘特征与多尺度聚合特征,生成最终显著性检测结果图的过程如下:
(10) |
式中:为多尺度聚合特征;为反卷积模块(反卷积层+批归一化层+ReLU层);为编码器输出特征。最后借助于边缘特征,对进一步处理,生成最终的显著性检测图,即:
(11) |
最终的显著性检测结果图与显著性检测真实图也将通过损失函数进行监督训练。在多尺度学习模块与边缘感知模块的共同作用下,本文方法的输出特征会带有图像细节信息、语义信息和边缘信息,进而输出高准确度的显著性检测结果图。
本文采用2块NVIDIA GeForce GTX1080Ti GPU和1颗16核CPU在内存为32 GB的服务器平台进行模型训练。模型训练使用Pytorch深度学习框架,动量设置为0.9,权重衰减设置为0.000 5。模型的迭代次数为1 000个批次,批处理大小为2。前750个批次学习率设置为0.001,后250个批次学习率设置为0.000 1。采用Adam优化
本文使用P-R曲线、MAE分数、和四种指标来评价不同方法的性能。显著性检测可以通过0~255的整数将其阈值划分为一些二进制显著性掩码,再与真实值进行比较,从而获得精确度和查全率。以精确率为纵轴,召回率为横轴绘制P-R曲线。是一个整体性能指标,计算过程为:
(16) |
式中为0.
(17) |
式中:为图片的像素数量;和分别为显著性检测图像和真实图像在像素处的像素值。
为了验证本文所提出的网络MEGNet的有效性,将其与PoolNe

图6 不同显著性检测方法在3种数据集上的P-R曲线实验结果
Fig.6 P-R curves of different salient detection methods on three datasets
evaluation indicators | ORSSD | EORSSD | our dataset | ||||||
---|---|---|---|---|---|---|---|---|---|
MAE | MAE | MAE | |||||||
DAFNet- | 0.917 4 | 0.012 5 | 0.919 1 | 0.892 2 | 0.006 0 | 0.916 7 | 0.868 1 | 0.015 3 | 0.912 1 |
DAFNet- | 0.923 5 | 0.010 6 | 0.918 8 | 0.906 0 | 0.005 3 | 0.918 5 | 0.885 5 | 0.011 3 | 0.916 4 |
PoolNe | 0.791 1 | 0.035 8 | 0.840 3 | 0.781 2 | 0.020 9 | 0.821 8 | 0.753 6 | 0.037 9 | 0.800 8 |
DS | 0.783 8 | 0.036 3 | 0.826 2 | 0.715 8 | 0.018 6 | 0.787 4 | 0.646 7 | 0.039 7 | 0.737 9 |
EGNe | 0.843 8 | 0.021 6 | 0.872 1 | 0.806 0 | 0.010 9 | 0.860 2 | 0.757 8 | 0.026 8 | 0.849 3 |
RCR | 0.594 4 | 0.127 7 | 0.684 9 | 0.449 5 | 0.164 4 | 0.601 3 | 0.368 7 | 0.187 9 | 0.512 8 |
RRW | 0.595 0 | 0.132 4 | 0.683 5 | 0.449 5 | 0.167 7 | 0.599 7 | 0.370 5 | 0.192 3 | 0.507 6 |
proposed | 0.935 5 | 0.011 7 | 0.924 1 | 0.913 2 | 0.005 7 | 0.918 9 | 0.909 1 | 0.009 1 | 0.925 5 |

图7 在可见光遥感影像中不同显著性检测方法的可视化结果 (a) 输入可见光遥感图像; (b) 显著性检测真实图像; (c) DAFNet-V; (d) DAFNet-R;(e) PoolNet; (f) DSS; (g) EGNet; (h) RCRR; (i) RRWR; (j) 本文方法
Fig.7 Visualization results of different saliency detection methods in optical remote sensing images (a) input optical remote sensing images;(b) salient detection ground truth images; (c) DAFNet-V; (d) DAFNet-R; (e) PoolNet; (f) DSS; (g) EGNet; (h) RCRR; (i) RRWR; (j) our method

图8 在红外遥感影像中不同显著性检测方法的可视化结果 (a) 输入红外遥感图像; (b) 显著性检测真实图像; (c) DAFNet-V; (d) DAFNet-R;(e) PoolNet; (f) DSS; (g) EGNet; (h) RCRR; (i) RRWR; (j) 本文方法
Fig.8 Visualization results of different saliency detection methods in infrared remote sensing images (a) input infrared remote sensing images; (b) salient detection ground truth images; (c) DAFNet-V; (d) DAFNet-R; (e) PoolNet; (f) DSS; (g) EGNet; (h) RCRR; (i) RRWR; (j) our method
为了验证边缘感知引导网络的有效性,此处对MEGNet进行了模型分析与消融实验。EAGN根据输入的多尺度模态融合特征,输出多尺度聚合特征与边缘特征,针对2处在MEGNet的特征添加分别进行消融实验,不添加多尺度聚合特征、不添加边缘特征和2种特征都不添加的模型分别称之为、与。
如
evaluation indicators | MAE | ||
---|---|---|---|
0.888 6 | 0.010 3 | 0.903 0 | |
0.857 7 | 0.011 7 | 0.891 4 | |
0.831 8 | 0.012 1 | 0.875 9 | |
MEGNet | 0.909 1 | 0.009 1 | 0.925 5 |

图9 MEGNet消融实验的可视化结果对比 (a) 输入图像; (b) 显著性检测真实图像; (c) ; (d) ; (e) ; (f) MEGNet
Fig.9 Comparison of visualization results of MEGNet ablation experiment (a) input images;(b) salient detection ground truth images;
(c) (d) ; (e) ;(f) MEGNet
针对多模态遥感影像显著性检测精确度不佳、鲁棒性差等问题,提出了一种面向多模态遥感影像的显著性检测方法MEGNet,该方法通过跨模态特征共享模块CFSM、多模态特征融合模块MMB以及边缘感知引导网络EAGN实现高准确度的显著性检测。具体来说,MEGNet的主干网络首先对输入的双模态遥感影像对进行特征提取与编码,以此获得的多尺度双模态特征输入至CFSM模块与MMB模块进行进一步处理。CFSM模块能够抑制具有缺陷的特征信息进一步在网络中传播,而MMB的特征融合策略相比于线性融合策略会捕获更多的模态间互补信息。其次,EAGN模块针对MMB输出的多模态融合特征进一步提取边缘特征,并与边缘图真实图像进行监督训练,确保加入至主干解码网络的边缘特征的正确性。最后的主干解码网络融合多尺度聚合特征与边缘特征使用上采样层输出最终显著性检测结果图。实验结果表明,基于多模态遥感影像的显著性检测方法MEGNet在可视化分析和评价指标分析中都取得了具有竞争力的结果;同时,针对边缘感知引导网络的消融实验证明,多尺度聚合特征与边缘特征的加入在MEGNet显著性检测实验中具有显著提升评价指标的作用。
虽然MEGNet具有较高的显著性检测效果,但检测速率相比于其他方法并无优势。未来工作中将着重研究基于知识蒸馏的网络模型优化,特别是多模态特征融合模块中矩阵外积的优化。
参考文献
罗群,刘俊. 基于光谱尺度空间与管道滤波的红外目标检测[J].太赫兹科学与电子信息学报, 2022,20(4):346-353. [百度学术]
LUO Qun,LIU Jun. Infrared target detection algorithm based on fast spectral scale space and dynamic pipeline filtering[J]. Journal of Terahertz Science and Electronic Information Technology, 2022,20(4):346-353.doi:10.11805/TKYDA2020605. [百度学术]
牛文渊,黄先锋,金洁,等. 小型文物摄影测量三维建模主体对象识别[J]. 遥感学报, 2021,25(12):2409-2420. [百度学术]
NIU Wenyuan, HUANG Xianfeng,JIN Jie,et al. Recognition method of the main object of three-dimensional photogrammetric modeling of cultural relics[J]. National Remote Sensing Bulletin, 2021,25(12):2409-2420.doi:10.11834/jrs.20211185. [百度学术]
于野,艾华,贺小军,等. A-FPN算法及其在遥感图像船舶检测中的应用[J]. 遥感学报, 2020,24(2):107-115. [百度学术]
YU Ye,AI Hua, HE Xiaojun,et al. Attention-based feature pyramid networks for ship detection of optical remote sensing image[J]. National Remote Sensing Bulletin, 2020,24(2):107-115.doi:10.11834/jrs.20208264. [百度学术]
LI Changyang,YUAN Yuchen,CAI Weidong,et al. Robust saliency detection via regularized random walks ranking[C]// IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston,MA,USA:IEEE, 2015:2710-2717. [百度学术]
YUAN Yuchen,LI Changyang,KIM Jinman,et al. Reversion correction and regularized random walk ranking for saliency detection[J]. IEEE Transactions on Image Processing, 2017,27(3):1311-1322. [百度学术]
刘亚宁,吴清,魏雪. 基于流行排序的前景背景显著性检测算法[J]. 科学技术与工程, 2018,18(18):74-81. [百度学术]
LIU Yaning,WU Qing,WEI Xue. Saliency detection combined foreground with background based on manifold ranking[J]. Science Technology and Engineering, 2018,18(18):74-81. [百度学术]
戴玉超,张静,PORIKLI F,等. 深度残差网络的多光谱遥感图像显著目标检测[J]. 测绘学报, 2018,47(6):873-881. [百度学术]
DAI Yuchao,ZHANG Jing,PORIKLI F,et al. Salient object detection from multi-spectral remote sensing images with deep residual network[J]. Acta Geodaetica et Cartographica Sinica, 2018,47(6):873-881.doi:10.11947/j.AGCS.2018.20170633. [百度学术]
HOU Qibin,CHENG Mingming,HU Xiaowei,et al. Deeply supervised salient object detection with short connections[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. Hawaii,USA:IEEE, 2017:3203-3212. [百度学术]
LI Chongyi,CONG Runmin,HOU Junhui,et al. Nested network with two-stream pyramid for salient object detection in optical remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019,57(11):9156-9166. [百度学术]
王福斌,刘贺飞,王蕊,等. 烧结断面火焰图像多核Boosting显著性检测[J]. 计算机辅助设计与图形学学报, 2021,33(9):1466-1474. [百度学术]
WANG Fubin,LIU Hefei,WANG Rui,et al. Multiple kernel boosting saliency detection of flame image of sintering section[J]. Journal of Computer-Aided Design & Computer Graphics, 2021,33(9):1466-1474.doi:10.3724/SP.J.1089.2021.18686. [百度学术]
ZHAO Jiaxing,LIU Jiangjiang,FAN Dengping,et al. EGNet:Edge Guidance Network for salient object detection[C]// IEEE/CVF International Conference on Computer Vision. Seoul,Korea(South):IEEE, 2019:8779-8788. [百度学术]
LIU Jiangjiang,HOU Qibin,CHENG Mingming,et al. A simple pooling-based design for real-time salient object detection[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA,USA:IEEE, 2019:3917-3926. [百度学术]
陈正,赵晓丽,张佳颖,等. 基于跨模态特征融合的RGB-D显著性目标检测[J]. 计算机辅助设计与图形学学报, 2021,33(11):1688-1697. [百度学术]
CHEN Zheng,ZHAO Xiaoli,ZHANG Jiaying,et al. RGB-D image saliency detection based on cross-model feature fusion[J]. Journal of Computer-Aided Design & Computer Graphics, 2021,33(11):1688-1697.doi:10.3724/SP.J.1089.2021.18710. [百度学术]
LI Chongyi,CONG Runmin,GUO Chunle,et al. A parallel down-up fusion network for salient object detection in optical remote sensing images[J]. Neurocomputing, 2020(415):411-420. [百度学术]
ZHANG Qijian,CONG Runmin,LI Chongyi,et al. Dense attention fluid network for salient object detection in optical remote sensing images[J]. IEEE Transactions on Image Processing, 2020(30):1305-1317. [百度学术]
侯舒维,郭宝龙,李晓博,等. 城区建筑物的在轨热异常检测提取[J]. 太赫兹科学与电子信息学报, 2022,20(5):498-505. [百度学术]
HOU Shuwei,GUO Baolong,LI Xiaobo,et al. On-orbit thermal anomaly detection and extraction of urban buildings[J]. Journal of Terahertz Science and Electronic Information Technology, 2022,20(5):498-505.doi:10.11805/TKYDA2021023. [百度学术]
WU Xin,LI Wei,HONG Danfeng,et al. Vehicle detection of multi-source remote sensing data using active fine-tuning network[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020(167):39-53. [百度学术]
HAN Junwei,CHEN Hao,LIU Nian,et al. CNNs-based RGB-D saliency detection via cross-view transfer and multiview fusion[J]. IEEE Transactions on Cybernetics, 2017,48(11):3171-3183. [百度学术]
CHEN Hao,LI Youfu. Progressively complementarity-aware fusion network for RGB-D salient object detection[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA:IEEE, 2018:3051-3060. [百度学术]
GAO Wei,LIAO Guibiao,MA Siwei,et al. Unified information fusion network for multi-modal RGB-D and RGB-T salient object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021,32(4):2091-2106. [百度学术]
TU Zhengzheng,LI Zhun,LI Chenglong,et al. Multi-interactive dual-decoder for RGB-thermal salient object detection[J]. IEEE Transactions on Image Processing, 2021(30):5678-5691. [百度学术]
LIANG Fangfang,DUAN Lijuan,MA Wei,et al. A deep multimodal feature learning network for RGB-D salient object detection[J]. Computers & Electrical Engineering, 2021(92):107006. [百度学术]
ZHANG Qiang,HUANG Nianchang,YAO Lin,et al. RGB-T salient object detection via fusing multi-level CNN features[J]. IEEE Transactions on Image Processing, 2019(29):3321-3335. [百度学术]
LIAO Guibiao,GAO Wei,LI Ge,et al. Cross-collaborative fusion-encoder network for robust RGB-thermal salient object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022,32(11):7646-7661. [百度学术]
HUANG Nianchang,YANG Yang,ZHANG Dingwen,et al. Employing bilinear fusion and saliency prior information for RGB-D salient object detection[J]. IEEE Transactions on Multimedia, 2021(24):1651-1664. [百度学术]
HUANG Nianchang,LIU Yi,ZHANG Qiang,et al. Joint cross-modal and unimodal features for RGB-D salient object detection[J]. IEEE Transactions on Multimedia, 2020(23):2428-2441. [百度学术]
LIU Zhengyi,TAN Yacheng,HE Qian,et al. SwinNet:Swin transformer drives edge-aware RGB-D and RGB-T salient object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021,32(7):4486-4497. [百度学术]
FAN Dengping,CHENG Mingming,LIU Yun,et al. Structure-measure:a new way to evaluate foreground maps[C]// IEEE International Conference on Computer Vision. Venice,Italy:IEEE, 2017:4548-4557. [百度学术]
BORJI A,CHENG M M,JIANG H,et al. Salient object detection:a benchmark[J]. IEEE Transactions on Image Processing, 2015, 24(12):5706-5722. [百度学术]