合成孔径雷达(Synthetic Aperture Radar,SAR)具有高分辨率、全天时、全天候工作等特点[1],相比于传统光学传感器,其在海洋监测等任务中拥有更大的优势。基于SAR 图像的舰船目标检测任务在海上巡逻和监测、海上交通管理、海上搜索和救援等领域中具有重要作用,在军用和民用领域均有广泛的应用场景[2]。
对于传统的SAR 舰船检测方法,恒虚警率(Constant False Alarm Rate,CFAR)[3-5]算法由于其较低的算法复杂度而被广泛使用。其原理是估计表面杂波的概率密度函数,并根据预先设定的虚警率自适应地调整检测阈值。然而在近岸场景下,陆地区域的背景较为复杂,这使得杂波建模和阈值设定变得困难,导致检测性能降低。最近,随着深度学习的发展,SAR 图像舰船目标检测的准确率得到了进一步的提高。文献[6]提出了一种无锚框的功率变换和特征对齐引导网络(Power Transformation and Feature Alignment-guided Network,Pow-FAN),它包含了用于抑制噪声的PCB(power-based convolution block)模块和用于特征融合的FAB(feature alignment block)模块。为了抑制噪声和复杂背景的影响,文献[7]设计了跨尺度自注意力模块,除此之外,还提出了区域预测感知一对一标签分配以挑选最合适的正负样本。文献[8]基于协调注意模块[9]提出了一个CSPMRes2(cross stage partial network with a modified res2net)模块,并将其应用于YOLOv5 网络中,取得了较好的效果。文献[10]提出了注意力引导的平衡特征金字塔网络(Attention-guided Balanced Feature Pyramid Network,A-BFPN)并设计了通道注意力引导的融合网络模型,在利用语义和多级互补特征的同时缓解特征图融合过程中的混叠效应。文献[11]为提高对密集目标的检测能力提出了关键点估计模块,并设计通道注意力模块减少噪声对舰船目标的干扰。文献[12]设计一个AFF(adjacent feature fusion)模块减少了由于注意力分散导致的不同尺度特征之间的信息差异,同时将AFF 和swin Transformer[13]结合提出了ESTD-NET(enhancement Swin transformer detection network),进一步提高检测精度。上述方法都通过注意力模块提高网络的特征提取能力。然而,文献[6,8,10-11]的注意力机制较为简单,注意力结果不理想。文献[7]和[12]中使用的基于transformer 的注意力机制虽然可以取得较好的效果,但计算量较大。此外,在SAR 图像中,斑点噪声、近岸场景下的陆地背景均会影响检测结果,使舰船目标被漏检或者将陆地区域误检为目标。
为了解决上述问题,本文提出了多尺度特征注意力融合网络(Multi-scale Attention Fusion Network,MAF-Net),其包含MFAF(multi-scale feature attention fusion)模块和余弦相似(Cosine Similar,CS)损失。MFAF 模块用于对FPN(Feature Pyramid Network)输出的3 个不同尺度特征图进行增强,通过融合深层的语义信息,增强了对噪声的抑制效果,从而提高了检测的准确率。CS 损失在训练过程中计算目标与非目标区域的余弦距离,并在训练过程中让此距离减小,以增强网络对目标的识别精度。
本文基于FCOS(fully convolutional one-stage object detection)[14]提出了MAF-Net,其结构如图1所示,该网络包含4个部分:主干网络、MFAF模块、FPN和分类回归子网络。其中MFAF模块对FPN输出的特征图进行增强。并且使用focal损失、CIoU[15]损失和CS损失进行训练。
图1 MAF-Net网络结构
在SAR 图像中,舰船目标的长宽比普遍较为极端,且船只朝向不固定。因此在特征图中,舰船目标对应的位置很容易包含较多的背景信息,从而对检测结果造成干扰,影响精度。此外,由于分辨率以及拍摄角度的不同,SAR 舰船目标的尺寸跨度较大。单一的特征金字塔网络结构较为简单,不能充分地利用每个尺度的特征中的信息。在近岸场景下,陆地背景复杂,部分岛屿与舰船目标的形状相似,因此会造成误检,同时部分舰船目标离陆地较近且排列密集,易受到噪声的影响,从而导致漏检。所有这些问题都将导致网络检测性能受到限制。为了解决上述问题,本文提出了MFAF 模块。其结构如图2 所示。该模块使用不同尺度间的信息对FPN 输出的特征图进行增强,以提升网络的特征提取能力,抑制噪声对舰船目标的干扰。,i = 3,4,5 是从FPN 输出的特征图,其中X5 和X3 分别是FPN 输出的最深层特征和最浅层特征,通道数为256,Hi、Wi 分别为特征图的高和宽。首先对特征图X5在空间上分别使用最大池化和平均池化操作,随后将结果送入MLP 模块以得到 和。然后通过和对特征图X5进行通道维度上的增强。对于其他的特征Xi,i = 3,4,先经过空间上的最大池化和平均池化操作,然后将结果与 和 分别相加后再送入MLP模块中。其公式可以表示如下:
图2 MFAF模块结构
式中,X'i ∈ℝCi × Hi × Wi,i = 3,4,5 为经过通道增强后的特征,BD()为广播操作,·表示按元素相乘。
MLP 是层数为2 的多层感知机。将经过通道增强后的特征图X'5在通道维度上分别取最大值和平均值,随后将结果在通道维度进行拼接得到,然后将送入SCAM 模块以得到,然后使用对X'5 进行空间上的增强。对于其他的特征X'i,i = 3,4,将通道维度的最大值和平均值拼接后,再分别与 相加来得到,i = 3,4,然后再将送入SCAM 模块以得到。其公式可以表示如下:
式中,,i = 3,4,5 表示经过空间增强后的特征图,concate(A,B)表示将A 和B 在通道维度上进行拼接,UP 表示上采样操作。SCAM 的结构如图2 所示,首先将分别在水平方向和垂直方向上做平均池化,然后将结果通过广播操作变成与相同的大小,再分别通过一个卷积层后将结果与输入的相加,最后通过输入通道为2,输出通道为1,卷积核大小为3×3 的卷积得到。公式如下:
式中,表示大小为3×3的卷积核参数,⊗表示卷积操作。
SAR 图像中的陆地背景较为复杂,且部分船只受噪声影响较大,因此网络很难有效地区分背景与舰船目标之间的差异,导致检测结果较差。为了引导网络学习舰船目标与背景之间的差异,本文提出了CS损失。其目的是使特征图中包含目标的区域与不包含目标的区域的相似度尽可能的低,从而减少背景与目标的混淆。X ∈ℝ1 × H × W 表示输入的图片。X 上属于第k 个目标的标签框内的位置集合可以表示为
式中:chk,cwk 分别表示第k 个目标框的中心位置;bhk,bwk表示k个目标框的高和宽;d是用于调整Pk,d中包含区域的大小。Pd ={ p1,d,p2,d,…,pn,d}表示X上所有目标框内的位置集合,n 是X 上目标的个数。
相应地,X″i ∈ℝCi × Hi × Wi,i = 3,4,5 上包含在目标框内的位置集合Ωi和不包含在目标框内的位置集合Γi可以表示为
式中di 表示特征图X″i 所对应的理论感受野大小。CS损失的公式如下:
式中 |Ωi |和 |Γi |分别为集合Ωi 和Γi 的大小,‖ . ‖2 表示向量的二范数,X″i,p ∈ℝCi × 1 × 1 表示特征图X″i 上位置p 对应的向量。因此网络的分类损失可以表示为
式中Lfocal 为focal 损失,超参数α 用于调整CS 损失占比,其被设置为0.5时可以达到最佳结果。
1)数据集
Official-SSDD(SSDD):SSDD 数据集[16-17]是SAR 船舶检测领域使用最广泛的数据集。于2017年第一次发布,并在2021 年发布了更新版。SSDD数据集包含多尺度目标并且背景复杂,大多数图片大小为500 像素宽,分辨率从1 m 到15 m 不等,来自RadarSat-2、TerraSAR-X 和Sentinel-1,包含多种极化方式(HH、VV、VH 和HV)。SSDD 中船舶的平均尺寸仅为约35×35像素。
SAR-Ship-Dataset:2019 年,Wang 等人发布了SAR 船舶数据[18]。它包含43 819 张图像,图像大小为256×256,主要来自Sentinel-1和高分-3。其具有5 m 至20 m 的分辨率,以及HH、HV、VV 和VH极化。与文献[18]中的设置相同,整个数据集被随机分为训练(70%)、验证(20%)和测试数据集(10%)。
2)实现细节
骨干网络采用ResNet50,并且使用ImageNet数据集对其进行预训练。然后通过COCO 数据集对整个网络进行预训练。本文使用15 vCPU Intel(R)Xeon(R)Platinum 8358P CPU@2.60GHz,NVIDIA RTX 3090 显卡。使用的编程语言是python3.9,深度学习框架为PyTroch1.8.1。GPU 计算平台为CUDA 11.1。优化器是初始学习率为0.01的随机梯度下降(SGD)优化器,其学习率在每个衰减步骤被除以10。SSDD 和SAR 船舶数据集的迭代次数分别为16K 和32K。所有的图片尺寸均被缩放为512×512,为了公平地与其他方法进行比较,训练阶段使用的数据增强方法只包括随机反转以避免过拟合。
为了定量地分析所提方法的有效性,本文使用目标检测领域中广泛使用的平均精度(AP)当做验证指标。AP的计算方法如下:
式中Pd 和Rd 分别为准确率和召回率,其计算方式如下:
其中d 是IoU 阈值,对于网络输出的一个样本,其回归框与标签框的IoU 大于d 时,该样本定义为TPd;否则,该样本定义为FPd。对于某一个标签框来说,如果没有网络输出的样本与其IoU大于d,则将其定义为FNd。AP 为d 取0.5 到0.95 时APd 的平均值:
此外,按照目标所占像素区域的大小可以分为大目标(大于962)、中目标(大于322 并且小于962)和小目标(小于322)。分别计算大、中和小目标的AP,将所得结果分别定义为APL、APM 和APS。
为了验证所提出的MFAF 模块和CS 损失的有效性,本文以不同的设置在SSDD数据集上对MAFNet进行训练。消融实验的结果如表1所示。
表1 在SSDD上的消融实验结果
方法FCOS FCOS+CS损失FCOS+MFAF模块FCOS+MAF-Net AP 67.4 68.5 68.3 71.2 AP50 96.5 97.4 97.4 98.2 APS 67.2 67.7 67.5 67.9 APM 68.8 72.6 70.1 73.4 APL 64.4 66.7 65.0 66.8 FPS 36 36 28 28
由于FCOS 网络的特征提取能力较弱,因此只能达到96.5% AP50,通过添加了MFAF 模块以后,提升了网络的特征提取能力,针对所有尺度的目标的检测能力均有所提升,使AP50达到了97.4%。在FCOS 的训练阶段中添加CS 损失可以有效地引导网络针对目标与背景之间的差异进行学习,从而提高准确率,可达97.4% AP50。联合使用MFAF模块和CS 损失可以达到最佳的结果,提升了1.7% AP50,可达98.2% AP50。并且在所有尺度上的AP50均可以达到最佳。额外地,通过添加MFAF模块后网络的检测速度仅降低了8%,依旧可以满足对网络的实时性的要求。
为了进一步验证CS 损失的有效性,并确定最佳的超参数,本文使用占比不同的CS损失在SSDD数据集上对FCOS进行训练,其结果如表2所示,其中超参数α 用于调整CS 损失的占比。当α 为0 时相当于不添加CS 损失。其AP50为最低的96.5%。通过添加占比不同的CS损失后,均能提高AP50,当α为0.5时可以取得最佳的97.4% AP50。
表2 在SSDD上不同参数α的检测结果
α 0 0.1 0.3 0.5 0.7 0.9 1 AP 67.4 67.7 68.0 68.5 68.2 68.1 67.9 AP50 96.5 96.9 97.2 97.4 97.3 97.2 97.2
为了直观地展示MFAF模块的作用,网络注意力可视化结果如图3所示。其中图3(a)为标签,图3(b)为仅使用CBAM 模块的注意力结果,图3(c)为MFAF 模块的注意力结果。如图3(b)中前4 行所示,当仅用CBAM 模块时,在近岸场景下,网络注意的位置会受到陆地背景的干扰。而在深海场景下,网络注意的位置不能很好地集中在舰船目标上,注意力较为分散,如图3(b)中后两行所示。当使用MFAF模块时,网络注意的位置受到陆地的干扰较小,并且注意力的结果可以很好地集中在舰船目标上,从而可以取得较好的检测结果。
图3 网络注意力结果图
本文所提的MAF-Net 与其他方法的比较如表3和表4所示,MAF-Net在SSDD和SAR-Ship-Dataset中均可以取得最佳的AP50。在SSDD 数据集上,MAF-Net 可以达到最佳的98.2% AP50,与双阶段和单阶段最佳的A-BFPN 和Pow-FAN 相比,分别提高了1.4% AP50和1.8% AP50。对于SAR-Ship-Dataset,MAF-Net 达到了最佳的96.5% AP50,与双阶段网络中性能最佳的ISASDNet+r101 相比,提高了0.7% AP50。与单阶段网络中的MSSD-Net 相比,提高了1.4% AP50。作为单阶段网络,MAF-Net不仅在单阶段网络中有最佳的性能,还可以获得比双阶段网络更佳的检测结果。
表3 SSDD上的对比实验结果
阶段双阶段单阶段方法A-BFPN[10]ESTD-Net[12]ISASDNet+r50[19]ISASDNet+r101[19]Pow-FAN[6]FCOS+MFAF模块+CS损失AP 59.6 59.4 61.0 62.7-71.2 AP50 96.8 93.8 95.4 96.8 96.4 98.2
表4 SAR-Ship-Dataset上的对比实验结果
阶段双阶段单阶段方法ESTD-Net[14]ISASDNet+r50[19]ISASDNet+r101[19]MSSD-Net[8]FCOS+MFAF模块+CS损失AP 60.8 60.1 59.6 60.1 73.5 AP50 95.0 95.3 95.8 95.1 96.5
为了解决SAR 图像中舰船目标检测精度不高的问题。本文提出了一个单阶段无锚框的MAFNet。其中包含的MFAF 模块使用不同尺度特征中的信息对特征进行空间和通道维度的增强,可以有效提升网络的表达能力,抑制背景噪声的干扰,从而提高网络的检测准确度。此外,本文提出了一个CS损失,在训练过程中添加CS损失可以使网络更清晰地区分目标与背景之间的差异。通过在两个数据集上的实验表明,MAF-Net 使用的MFAF模块和CS 损失均可以有效地提升检测精度,并且MAF-Net与其他方法相比,拥有更佳的准确率。在未来,为了方便模型的部署,可以从模型剪枝的角度出发,在不影响模型准确率的前提下去除网络中冗余的参数,提高网络的运行速度。
[1]梁怿清,王小华,陈立福.基于深度学习的SAR 目标检测方法[J].雷达科学与技术,2019,17(5):579-586.
[2]夏勇,田西兰,常沛,等.基于深度学习的复杂沙漠背景SAR目标检测[J].雷达科学与技术,2019,17(3):305-309.
[3]DAI Hui, DU Lan, WANG Yan, et al. A Modified CFAR Algorithm Based on Object Proposals for Ship Target Detection in SAR Images[J]. IEEE Geoscience and Remote Sensing Letters,2016,13(12):1925-1929.
[4]LI Mingdian, CUI Xingchao, CHEN Siwei. Adaptive Superpixel-Level CFAR Detector for SAR Inshore Dense Ship Detection[J]. IEEE Geoscience and Remote Sensing Letters,2022,19(1):1-5.
[5]LENG Xiangguang,JI Kefeng,YANG Kai,et al.A Bilateral CFAR Algorithm for Ship Detection in SAR Images[J].IEEE Geoscience and Remote Sensing Letters, 2015, 12(7):1536-1540.
[6]XIAO Man, HE Zhi, LI Xinyuan, et al. Power Transformations and Feature Alignment Guided Network for SAR Ship Detection[J]. IEEE Geoscience and Remote Sensing Letters,2022,19(1):12-16.
[7]ZHANG Lili,LIU Yuxuan,HUANG Yufeng,et al.Regional Prediction-Aware Network with Cross-Scale Self-Attention for Ship Detection in SAR Images[J]. IEEE Geoscience and Remote Sensing Letters,2022,19(1):36-42.
[8]ZHOU Kexue, ZHANG Min, WANG Hai, et al. Ship Detection in SAR Images Based on Multi-Scale Feature Extraction and Adaptive Feature Fusion[J]. Remote Sensing,2022,14(3):755.
[9]HOU Qibin, ZHOU Daquan, FENG Jiashi. Coordinate Attention for Efficient Mobile Network Design[C]∕∕IEEE ∕CVF Conference on Computer Vision and Pattern Recognition,Nashville,TN,USA:IEEE,2021:13708-13717.
[10]LI Xiuqin, LI Dong, LIU Hongqing, et al. A-BFPN: An Attention-Guided Balanced Feature Pyramid Network for SARShipDetection[J].RemoteSensing,2022,14(15):3829.
[11]MA Xiaorui,HOU Shilong,WANG Yangyang,et al.Multiscale and Dense Ship Detection in SAR Images Based on Key-Point Estimation and Attention Mechanism[J].IEEE TransonGeoscienceandRemoteSensing,2022,60:1-11.
[12]LI Kuoyang, ZHANG Min, XU Maiping, et al. Ship Detection in SAR Images Based on Feature Enhancement Swin Transformer and Adjacent Feature Fusion[J]. Remote Sensing,2022,14(13):3186.
[13]LIU Ze, LIN Yutong, CAO Yue, et al. Swin Transformer:Hierarchical Vision Transformer Using Shifted Windows[C]∕∕IEEE∕CVF International Conference on Computer Vision,Montreal,QC,Canada:IEEE,2021:9992-10002.
[14]TIAN Zhi, SHEN Chunhua, CHEN Hao, et al. FCOS:Fully Convolutional One-Stage Object Detection[C]∕∕IEEE∕CVF International Conference on Computer Vision,Seoul,Korea:IEEE,2019:9626-9635.
[15]ZHENG Zhaohui,WANG Ping,LIU Wei,et al.Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[C]∕∕AAAI Conference on Artificial Intelligence,[S.l.]:[s.n.],2019:12993-13000.
[16]ZHANG Tianwen, ZHANG Xiaoling, LI Jianwei,et al.SAR Ship Detection Dataset(SSDD): Official Release and Comprehensive Data Analysis[J]. Remote Sensing,2021,13(8):3690.
[17]LI Jianwei,QU Changwen,SHAO Jiaqi.Ship Detection in SAR Images Based on an Improved Faster R-CNN[C]∕∕2017 SAR in Big Data Era: Models, Methods, and Applications,Beijing,China:IEEE,2017:1-6.
[18]WANG Yuanyuan, WANG Chao, ZHANG Hong, et al. A SAR Dataset of Ship Detection for Deep Learning under Complex Backgrounds[J]. Remote Sensing, 2019, 11(7):765.
[19]WU Zitong, HOU Biao, REN Bo, et al. A Deep Detection Network Based on Interaction of Instance Segmentation and Object Detection for SAR Images[J]. Remote Sensing,2021,13(13):2582.
A Multi-Scale Attention Fusion Network and Cosine Similar Loss for SAR Ship Detection
张丽丽 女,博士,副教授,主要研究方向为信号处理、目标识别、图像压缩与FPGA系统设计。
蔡健楠 男,硕士研究生,主要研究方向为深度学习与FPGA系统设计。
刘雨轩 男,硕士研究生,主要研究方向为深度学习与FPGA系统设计。
屈乐乐 男,博士,教授、硕士生导师,主要研究方向为信号处理技术。