<sub id="bz1nl"></sub><sub id="bz1nl"></sub>
        <sub id="bz1nl"></sub>

        <sub id="bz1nl"></sub><sub id="bz1nl"></sub>

          2.793

          2018影响因子

          (CJCR)

          • 中文核心
          • EI
          • 中国科技核心
          • Scopus
          • CSCD
          • 英国科学文摘

          留言板

          尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

          姓名
          邮箱
          手机号码
          标题
          留言内容
          验证码

          基于旋转框精细定位的遥感目标检测方法研究

          朱煜 方观寿 郑兵兵 韩飞

          朱煜, 方观寿, 郑兵兵, 韩飞. 基于旋转框精细定位的遥感目标检测方法研究. 自动化学报, 2020, 45(x): 1?10. doi: 10.16383/j.aas.c200261
          引用本文: 朱煜, 方观寿, 郑兵兵, 韩飞. 基于旋转框精细定位的遥感目标检测方法研究. 自动化学报, 2020, 45(x): 1?10. doi: 10.16383/j.aas.c200261
          Zhu Yu, Fang Guan-Shou, Zheng Bing-Bing, Han Fei. Research on detection method of refined rotated boxes in remote sensing. Acta Automatica Sinica, 2020, 45(x): 1?10. doi: 10.16383/j.aas.c200261
          Citation: Zhu Yu, Fang Guan-Shou, Zheng Bing-Bing, Han Fei. Research on detection method of refined rotated boxes in remote sensing. Acta Automatica Sinica, 2020, 45(x): 1?10. doi: 10.16383/j.aas.c200261

          基于旋转框精细定位的遥感目标检测方法研究


          DOI: 10.16383/j.aas.c200261
          详细信息
            作者简介:

            南京大学科学和技术学院博士研究生, 现为华东理工大学电子通信工程系教授. 主要研究方向为图像处理, 计算机视觉, 多媒体通信和深度学习. 本文通信作者. E-mail: zhuyu@ecust.edu.cn

            正攻读华东理工大学信息与工程学院硕士研究生. 主要研究方向为目标检测, 深度学习. E-mail: y30180616@mail.ecust.edu.cn

            华东理工大学信息科学与工程学院硕士研究生, 正攻读华东理工大学博士学位, 主要研究方向为医学图像处理, 深度学习, 计算机视觉. E-mail: bostonkg@outlook.com

            华东理工大学信息与工程学院硕士研究生. 主要研究方向为目标检测, 计算机视觉和深度学习. E-mail: fei-han_huali@163.com

          • 基金项目:  上海市科学技术委员会科研计划项目(17DZ1100808)资助

          Research on Detection Method of Refined Rotated Boxes in Remote Sensing

          More Information
          • Fund Project:  Shanghai Association for Science and Technology under Grant (17DZ1100808)
          • 摘要: 遥感图像中的目标往往呈现出任意方向排列, 而常见的目标检测算法均采用水平框检测, 并不能满足这类场景的应用需求. 因此本文提出一种旋转框检测网络R2-FRCNN. 该网络利用粗调与细调两阶段实现旋转框检测, 粗调阶段将水平框转换为旋转框, 细调阶段进一步优化旋转框的定位. 针对遥感图像存在较多小目标的特点, 本文提出像素重组金字塔结构, 融合深浅层特征, 提升复杂背景下小目标的检测精度. 此外, 为了在金字塔各层中提取更加有效的特征信息, 本文在粗调阶段设计一种积分与面积插值法相结合的感兴趣区域特征提取方法, 同时在细调阶段设计旋转框区域特征提取方法. 最后, 本文在粗调和细调阶段均采用全连接层与卷积层相结合的预测分支, 并且利用SmoothLn作为网络的回归损失函数, 进一步提升算法性能. 本文提出的网络在大型遥感数据集DOTA上进行评估, 评估指标mAP达到0.7602. 对比实验表明所提出的R2-FRCNN网络的有效性.
          • 图  1  遥感图像目标检测问题可视化

            Fig.  1  Visualization of remote sensing images object detection problem

            图  2  R2-FRCNN网络结构图

            Fig.  2  The structure of R2-FRCNN

            图  3  像素重组金字塔结构

            Fig.  3  The structure of pixel-recombination pyramid

            图  4  特征融合结构

            Fig.  4  The structure of feature fusion

            图  5  常用RoI特征提取示意图

            Fig.  5  The schematic diagram of common RoI feature extraction

            图  6  IRoIPool特征提取示意图

            Fig.  6  The diagram of IRoIPool feature extraction

            图  7  旋转RoI特征提取示意图

            Fig.  7  The diagram of rotated RoI feature extraction

            图  8  预测分支结构图

            Fig.  8  The diagram of prediction branch

            图  9  在DOTA上训练过程loss曲线图

            Fig.  9  Train Loss on DOTA

            图  10  各类别检测结果展示

            Fig.  10  Visualization of each category detection

            表  1  不同方法在DOTA数据集的检测精度对比

            Table  1  Comparison of detection accuracy of different methods in DOTA

            类别 方法
            R2CNN[10] RT[12] CADNet[13] SCRDet[15] R3Det[16] GV[17] 本文
            PL 80.94 88.64 87.80 89.98 89.24 89.64 89.10
            BD 65.67 78.52 82.40 80.65 80.81 85.00 81.22
            BR 35.34 43.44 49.40 52.09 51.11 52.26 54.47
            GTF 67.44 75.92 73.50 68.36 65.62 77.34 72.97
            SV 59.92 68.81 71.10 68.36 70.67 73.01 79.99
            LV 50.91 73.68 64.50 60.32 76.03 73.14 82.28
            SH 55.81 83.59 76.60 72.41 78.32 86.82 87.64
            TC 90.67 90.74 90.90 90.85 90.83 90.74 90.54
            BC 66.92 77.27 79.20 87.94 84.89 79.02 87.31
            ST 72.39 81.46 73.30 86.86 84.42 86.81 86.33
            SBF 55.06 58.39 48.40 65.02 65.10 59.55 54.20
            RA 52.23 53.54 60.90 66.68 57.18 70.91 68.18
            HA 55.14 62.83 62.00 66.25 68.10 72.94 76.12
            SP 53.35 58.93 67.00 68.24 68.98 70.86 70.83
            HC 48.22 47.67 62.20 65.21 60.88 57.32 59.19
            mAP(%) 60.67 69.56 69.90 72.61 72.81 75.02 76.02
            下载: 导出CSV

            表  2  R2-FRCNN模块分离检测结果

            Table  2  R2-FRCNN module separates detection results

            模块 R2-FRCNN
            Baseline
            精细调整
            IRoIPool
            RRoIPool
            PFPN
            SmoothLn
            ConvFc
            mAP(%) 69.52 73.62 73.99 74.31 74.97 75.13 75.96
            下载: 导出CSV

            表  3  不同水平框特征提取方法的实验结果

            Table  3  Experimental results of feature extraction methods of different horizontal boxes

            模块 Baseline + 精细调整
            方法 RoI Pooling RoI Align IRoIPool
            mAP(%) 71.21 73.62 73.99
            下载: 导出CSV

            表  4  不同旋转框特征提取方法的实验结果

            Table  4  Experimental results of different feature extraction methods of rotated boxes

            模块 Baseline + 精细调整 + IRoIPool
            方法 RRoI A-Pooling RRoI Align RRoIPool
            mAP(%) 73.38 73.99 74.31
            下载: 导出CSV
            七星彩规则
          • [1] Ya, Ying, et al. Fusion object detection of satellite imagery with arbitrary-oriented region convolutional neural network. Aerospace Systems, 2019, 2(2): 163?174 doi:  10.1007/s42401-019-00033-x
            [2] 王彦情, 马雷, 田原. 光学遥感图像舰船目标检测与识别综述. 自动化学报, 2011, 37(9): 1029?1039

            WANG Yan-Qing, MA Lei, TIAN Yuan. State-of-the-art of Ship Detection and Recognition in Optical Remotely Sensed Imagery. ACTA AUTOMATICA SINICA, 2011, 37(9): 1029?1039
            [3] 张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应用进展与展望. 自动化学报, 2017, 43(8): 1289?1305

            ZHANG Hui, WANG Kun-Feng, WANG Fei-Yue. Advances and Perspectives on Applications of Deep Learning in Visual Object Detection. ACTA AUTO-MATICA SINICA, 2017, 43(8): 1289?1305
            [4] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: to-wards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137?1149 doi:  10.1109/TPAMI.2016.2577031
            [5] Dai J F, Li Y, He K M, Sun J. R-FCN: object detection via region-based fully convolutional networks. In: Proceedings of the 2016 Advances in Neural Information Processing Systems (NIPS). Barcelona, Spain: MIT Press: IEEE, 2016. 379−387.
            [6] Cai, Zhaowei, and Nuno Vasconcelos. Cascade r-cnn: Delving into high quality object detection. In: Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR). Salt Lake City, UT: IEEE, 2018. 6154−6162.
            [7] Redmon J, Divvala S, Girshick R, Farhadi A. You only look once: unified, real-time object detection. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 779−788.
            [8] Liu W, Anguelov D, Erhan D, Szegedy C, Reed S E, Fu C Y, Berg A C. SSD: single shot multibox detector. In: Proceeding of the 14th European Conference on Computer Vision (ECCV). Amsterdam, Netherlands: Springer, 2016. 21−37.
            [9] Lin, Tsung-Yi, et al. Focal loss for dense object detection. In: Proceedings of the IEEE Transactions on Pattern Analysis and Machine Intelligence: IEEE, 2017, 42(2): 318−327.
            [10] Jiang Y, Zhu X, Wang X, et al. R2cnn: rotational region cnn for orientation robust scene text detection[Online], available: https://arxiv.org/abs/1706.09579, 29 Jun, 2017.
            [11] Ma J, Shao W, Ye H, et al. Arbitrary-oriented scene text detection via rotation proposals. IEEE Transactions on Multimedia, 2018, 20(11): 3111?3122 doi:  10.1109/TMM.2018.2818020
            [12] Ding, Jian, et al. Learning roi transformer for detecting oriented objects in aerial images. In: Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019. 2844−2853.
            [13] Zhang, Gongjie, Shijian Lu, and Wei Zhang. CAD-Net: A context-aware detection network for objects in remote sensing imagery. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(12): 10015?10024 doi:  10.1109/TGRS.2019.2930982
            [14] Azimi, Seyed Majid, Vig, Eleonora, Bahmanyar, Reza, et al. Towards Multi-class Object Detection in Unconstrained Remote Sensing Imagery. Cham: Springer International Publishing, 2019. 150−165.
            [15] Yang, Xue, et al. SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV), Seoul, Korea (South): IEEE, 2019. 8231−8240.
            [16] Yang, Xue, et al. R3DET: Refined single-stage detector with feature refinement for rotating object[Online], available: https://arxiv.org/abs/1908.05612, 15 Aug, 2019.
            [17] Xu, Yongchao, et al. Gliding vertex on the horizontal bounding box for multi-oriented object detection[Online], available: https://arxiv.org/abs/1911.09358, 21 Nov, 2019.
            [18] Wei, Haoran, et al. Oriented Objects as pairs of Middle Lines[Online], available: https://arxiv.org/abs/1912.10694, 23 Dec, 2019.
            [19] L i, Yangyang, et al. RADet: Refine Feature Pyramid Network and Multi-Layer Attention Network for Arbi-trary-Oriented Object Detection of Remote Sensing Images. Remote Sensing, 2020, 12(3): 389?409 doi:  10.3390/rs12030389
            [20] Wa ng, Jinwang, et al. Mask OBB: A Semantic Atten-tion-Based Mask Oriented Bounding Box Representation for Multi-Category Object Detection in Aerial Images. Remote Sensing, 2019, 11(24): 2930?2951 doi:  10.3390/rs11242930
            [21] Xia, Gui-Song, et al. DOTA: A large-scale dataset for object detection in aerial images. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, UT: IEEE, 2018. 3974−3983.
            [22] He, Kaiming, et al. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 770−778.
            [23] M a, Jianqi, et al. Arbitrary-oriented scene text detection via rotation proposals. IEEE Transactions on Multimedia, 2018, 20(11): 3111?3122 doi:  10.1109/TMM.2018.2818020
            [24] T. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan and S. Belongie. Feature Pyramid Networks for Object Detection. In: Proceeding of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI: IEEE, 2017. 936−944.
            [25] Yi, Jingru, Pengxiang Wu, and Dimitris N. Metaxas. ASSD: Attentive single shot multibox detector. Computer Vision and Image Understanding, 2019, 189: 102827−102836.
            [26] Zeiler M D, Krishnan D, Taylor G W, et al. Deconvolu-tional networks. In: 2010 Proceedings of the IEEE Computer Society Conference on computer vision and pattern recognition (CVPR). San Francisco, CA: IEEE, 2010. 2528−2535.
            [27] Wang J, Chen K, Xu R, et al. CARAFE: Content-Aware ReAssembly of Features [Online], available: https://arxiv.org/abs/1905.02188, 6 May, 2019.
            [28] Zhou, Peng, et al. Scale-transferrable object detection. In: Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, UT: IEEE, 2018. 528−537.
            [29] Bridle, John S. Probabilistic interpretation of feedforward classification network outputs, with relationships to statistical pattern recognition. Neurocomputing. Springer, Berlin, Heidelberg, 1990, 68: 227?236
            [30] K. He, G. Gkioxari, P. Dollár and R. Girshick. Mask R-CNN. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV), Venice: IEEE, 2017. 2980−2988.
            [31] Jiang, Borui, et al. Acquisition of localization confidence for accurate object detection [Online], available: https://arxiv.org/abs/1807.11590, 30 Jul, 2018.
            [32] Wu Y, Chen Y, Yuan L, et al. Rethinking Classification and Localization for Object Detection[Online], available: https://arxiv.org/abs/1904.06493, 13 Apr, 2019.
            [33] Liu, Yuliang, and Lianwen Jin. Deep matching prior network: Toward tighter multi-oriented text detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, UT: IEEE, 2018. 8759−8768.
            [34] Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks. In: Proceedings of the IEEE international con-ference on computer vision (CVPR). Honolulu, HI: IEEE, 2017. 3454−3461.
          • [1] 顾炼, 许诗起, 竺乐庆. 基于FlowS-Unet的遥感图像建筑物变化检测[J]. 自动化学报, doi: 10.16383/j.aas.c180122
            [2] 杨观赐, 杨静, 苏志东, 陈占杰. 改进的YOLO特征提取算法及其在服务机器人隐私情境检测中的应用[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170265
            [3] 王秀英, 冯惠, 任志考, 周艳平. 面向炼钢—连铸调度过程的两阶段优化模型与算法[J]. 自动化学报, doi: 10.16383/j.aas.2016.c160005
            [4] 孟明, 朱俊青, 佘青山, 马玉良, 罗志增. 多类运动想象脑电信号的两级特征提取方法[J]. 自动化学报, doi: 10.16383/j.aas.2016.c160122
            [5] 江晓莲, 李翠华, 李雄宗. 基于视觉显著性的两阶段采样突变目标跟踪算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.01098
            [6] 何楚, 尹莎, 许连玉, 廖紫纤. 基于局部重要性采样的SAR图像纹理特征提取方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.00316
            [7] 倪鼎, 马洪兵. 基于区域生长的多源遥感图像配准[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.01058
            [8] 陈曾, 侯进, 张登胜, 张华忠. 基于语义区域提取的图像重排[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.01356
            [9] 王彦情, 马雷, 田原. 光学遥感图像舰船目标检测与识别综述[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.01029
            [10] 李博, 杨丹, 邓林. 移动机器人闭环检测的视觉字典树金字塔TF-IDF得分匹配方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.00665
            [11] 何楚, 刘明, 冯倩, 邓新萍. 基于多尺度压缩感知金字塔的极化干涉SAR图像分类[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.00820
            [12] 詹宇斌, 殷建平, 刘新旺. 基于大间距准则和图像矩阵双向投影的人脸特征提取方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.01645
            [13] 刘勍, 许录平, 马义德, 王勇. 基于脉冲耦合神经网络的图像NMI特征提取及检索方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00931
            [14] 殷慧, 曹永锋, 孙洪. 基于多维金字塔表达和AdaBoost的高分辨率SAR图像城区场景分类算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.01099
            [15] 吴亮, 胡云安. 遥感图像自动道路提取方法综述[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00912
            [16] 苏娟, 王贵锦, 林行刚, 刘代志. 基于多时相遥感图像的人造目标变化检测算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2008.01040
            [17] 霍春雷, 程健, 卢汉清, 周志鑫. 基于多尺度融合的对象级变化检测新方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2008.00251
            [18] 池荣虎, 侯忠生. 非线性非仿射离散时间系统的两阶段最优迭代学习控制[J]. 自动化学报, doi: 10.1360/aas-007-1061
            [19] 邢进生, 万百五, 冯祖仁. 神经网络输出两阶段优化及其应用[J]. 自动化学报
            [20] 谭枫, 曾小明. 基于类别可分离性的遥感图象特征提取方法[J]. 自动化学报
          • 加载中
          计量
          • 文章访问数:  10
          • HTML全文浏览量:  2
          • 被引次数: 0
          出版历程
          • 收稿日期:  2020-04-29
          • 录用日期:  2020-09-07

          基于旋转框精细定位的遥感目标检测方法研究

          doi: 10.16383/j.aas.c200261
            基金项目:  上海市科学技术委员会科研计划项目(17DZ1100808)资助
            作者简介:

            南京大学科学和技术学院博士研究生, 现为华东理工大学电子通信工程系教授. 主要研究方向为图像处理, 计算机视觉, 多媒体通信和深度学习. 本文通信作者. E-mail: zhuyu@ecust.edu.cn

            正攻读华东理工大学信息与工程学院硕士研究生. 主要研究方向为目标检测, 深度学习. E-mail: y30180616@mail.ecust.edu.cn

            华东理工大学信息科学与工程学院硕士研究生, 正攻读华东理工大学博士学位, 主要研究方向为医学图像处理, 深度学习, 计算机视觉. E-mail: bostonkg@outlook.com

            华东理工大学信息与工程学院硕士研究生. 主要研究方向为目标检测, 计算机视觉和深度学习. E-mail: fei-han_huali@163.com

          摘要: 遥感图像中的目标往往呈现出任意方向排列, 而常见的目标检测算法均采用水平框检测, 并不能满足这类场景的应用需求. 因此本文提出一种旋转框检测网络R2-FRCNN. 该网络利用粗调与细调两阶段实现旋转框检测, 粗调阶段将水平框转换为旋转框, 细调阶段进一步优化旋转框的定位. 针对遥感图像存在较多小目标的特点, 本文提出像素重组金字塔结构, 融合深浅层特征, 提升复杂背景下小目标的检测精度. 此外, 为了在金字塔各层中提取更加有效的特征信息, 本文在粗调阶段设计一种积分与面积插值法相结合的感兴趣区域特征提取方法, 同时在细调阶段设计旋转框区域特征提取方法. 最后, 本文在粗调和细调阶段均采用全连接层与卷积层相结合的预测分支, 并且利用SmoothLn作为网络的回归损失函数, 进一步提升算法性能. 本文提出的网络在大型遥感数据集DOTA上进行评估, 评估指标mAP达到0.7602. 对比实验表明所提出的R2-FRCNN网络的有效性.

          English Abstract

          朱煜, 方观寿, 郑兵兵, 韩飞. 基于旋转框精细定位的遥感目标检测方法研究. 自动化学报, 2020, 45(x): 1?10. doi: 10.16383/j.aas.c200261
          引用本文: 朱煜, 方观寿, 郑兵兵, 韩飞. 基于旋转框精细定位的遥感目标检测方法研究. 自动化学报, 2020, 45(x): 1?10. doi: 10.16383/j.aas.c200261
          Zhu Yu, Fang Guan-Shou, Zheng Bing-Bing, Han Fei. Research on detection method of refined rotated boxes in remote sensing. Acta Automatica Sinica, 2020, 45(x): 1?10. doi: 10.16383/j.aas.c200261
          Citation: Zhu Yu, Fang Guan-Shou, Zheng Bing-Bing, Han Fei. Research on detection method of refined rotated boxes in remote sensing. Acta Automatica Sinica, 2020, 45(x): 1?10. doi: 10.16383/j.aas.c200261
          • 近年来, 随着遥感技术的发展, 高质量的遥感图像日益增多, 这为遥感领域的应用奠定了基础. 遥感图像广泛应用于灾害监测、资源

            调查、土地利用评价、农业产值测算、城市建设规划等领域[1], 对于社会和经济发展具有重要的意义. 而目标检测作为遥感图像处理的应用之一, 获得图中特定目标类别和位置. 通常关注飞机、机场、船舶、桥梁和汽车等目标, 因此对于民用和军用领域有着十分重要的用途[2]. 在民用领域中, 船舶的定位有利于海上救援行动, 车辆的定位有利于车辆计数和分析道路的拥堵情况等等. 在军事领域中, 这些类别信息的检测获取, 有利于快速且精准地锁定攻击目标位置、分析战争形势以及制定军事行动等等. 因此对于遥感图像中的目标进行精准检测至关重要.

            目标检测作为计算机视觉领域中一个重要且具有挑战性的研究热点. 随着深度学习的快速发展, 目标检测器的性能取得了显著进步, 已经广泛应用于各个行业. 目前常用的目标检测器大致可以分为两类[3], 即两级检测器和单级检测器. 两级检测器是基于区域卷积神经网路(Regions with Convolutional Neural Network, R-CNN)框架, 检测过程分为两个阶段. 第一阶段从图像中生成一系列候选框区域, 第二阶段从候选框区域中提取特征, 然后使用分类器和回归器进行预测. Faster R-CNN[4]作为两级检测器的经典方法, 提出候选区域生成网络(Region Proposal Networks, RPN)用于候选框的产生, 从而快速、准确地实现端到端检测. 之后R-FCN[5]、Cascade R-CNN[6]等两级检测器的出现进一步提高目标检测的精度; 单级检测器将检测问题简化为回归问题, 仅仅由一系列卷积层进行分类回归, 而不需要产生候选框及特征提取阶段. 因此这类方法通常检测速度较快. 例如, Redmon等[7]提出YOLO检测器, 将图像划分为一系列网格区域, 每个网格区域直接回归得到边界框. Liu等[8]提出SSD检测器, 在多个不同尺度大小的特征图上直接分类回归. Lin等[9]提出Focal Loss分类损失函数, 解决单级检测器的类别不平衡问题, 进一步提高检测精度. 这些先进的目标检测技术往往用于水平边界框的生成, 然而在遥感图像中, 大多数检测目标呈现出任意方向排列, 对于横纵比大或者密集排列的目标, 仅仅采用水平框检测将包含过多的冗余信息, 影响检测效果. 因此旋转方向成为不可忽视的因素.

            早期应用于遥感领域的旋转框检测算法主要来源于文本检测, 例如R2CNN[10]、RRPN[11]等. 然而由于遥感图像背景复杂且空间分辨率变化较大, 相比于二分类的文本检测具有更大困难, 因此这些优秀的文本检测算法直接应用于遥感领域中并不能取得较好的检测效果. 近年来, 随着目标检测算法的发展以及针对遥感图像的深入研究, 涌现出许多性能良好的旋转框检测算法. 例如Ding等[12]提出旋转感兴趣区域学习器(RoI Transformer), 将水平框转换为旋转框, 并在学习器中执行边界框的回归; Zhang等[13]提出通过捕获全局场景和局部特征的相关性增强特征; Seyed等[14]提出基于多尺度卷积核的图像级联方法; Yang等[15]提出像素注意力机制抑制图像噪声, 突出目标的特征, 并且在SmoothL1损失[4]中引入IoU常数因子解决旋转框的边界问题, 使旋转框预测更加精确. Yang等[16]设计精细调整模块, 采用特征调整模块(Feature Refinement Module, FRM), 通过插值操作实现特征对齐. Xu等[17]提出回归四种长度比来表示对应边的相对偏移距离, 并且引入了一个真实框与其水平边界框面积比作为倾斜因子, 用于对每个目标水平或旋转检测的选择. Wei等[18]提出利用预测内部中线实现旋转目标检测的方法. Li等[19]提出利用预测的掩模获取旋转框的方法. Wang等[20]提出了一种基于初始横向连接的特征金字塔网络增强算法, 同时利用语义注意力机制网络提供语义特征, 从复杂的背景中提取目标.

            因此目前在遥感图像中用于旋转框检测的方法大致可以分为两种: 其中一种算法整体结构仍然为水平框检测, 仅仅在回归预测分支中增加一些变量的获取, 例如角度因子等. 这种算法使得在网络预测的像素中包含较多背景信息, 容易出现图1所示的角度偏移以及漏检较多等问题; 另一种算法预设含有角度的锚点框, 然后采用旋转候选框内的像素进行预测. 由于目标的旋转角度较多, 因此这种算法需要预设大量的锚点框以保证召回率, 这样会极大地增加计算量.

            图  1  遥感图像目标检测问题可视化

            Figure 1.  Visualization of remote sensing images object detection problem

            针对上述不足, 本文结合这两种处理方法的优势, 以Faster R-CNN [21]为基础, 提出一种用于旋转框检测的网络—R2-FRCNN(Refined Rotated Faster R-CNN). 该网络依次采用上述两种旋转框处理方法, 将前一种方法得到旋转框的过程视为粗调, 这个阶段产生的旋转框作为后一种方法的预设框, 然后对于旋转框再次进行调整, 这个过程称为细调. 两阶段调整使得网络输出更加精确的预测框. 此外, 针对遥感图像存在较多小目标的特点, 本文提出像素重组特征金字塔网络(Pixel-recombination Feature Pyramid Network, PFPN), 相比于传统的金字塔网络, 本文的金字塔结构使得特征局部信息与全局信息相结合, 从而突出复杂背景下小目标的特征响应. 同时为了更好地提取表征目标信息的特征, 用于后续预测阶段, 本文在粗调阶段设计积分感兴趣区域池化方法(Integrate Region of Interest Pool, IRoIPool), 以及在精调阶段设计旋转感兴趣区域池化方法(Rotated Region of Interest Pool, RRoIPool), 提升复杂背景下小目标的检测精度. 最后本文在粗调和细调阶段均采用全连接层与卷积层结合的预测分支以及SmoothLn回归损失函数, 进一步提升算法性能.

            本文的内容安排如下: 第1节详细阐述本文提出的旋转框检测网络R2-FRCNN; 第2节通过与官方基准方法和现有方法的实验结果进行对比, 以及本文方法各模块的分离实验, 评估本文所提方法的性能; 第3节总结本文的工作.

            • 本节对提出的网络R2-FRCNN结构以及各模块进行阐述. 首先介绍R2-FRCNN网络的整体结构, 然后详细介绍各个模块: 像素重组金字塔结构、感兴趣区域特征提取以及网络预测分支结构. 最后介绍本文使用的损失函数.

            • 图2展示了R2-FRCNN网络的整体结构, 网络可以分为五个部分: 基础网络、像素重组金字塔PFPN、区域生成网络RPN、粗略调整阶段和精细调整阶段.

              图  2  R2-FRCNN网络结构图

              Figure 2.  The structure of R2-FRCNN

              本文采用ResNet[22]作为算法的基础网络, 将C3、C4、C5和C6特征层用于构建特征金字塔结构, 增强网络对于小目标的检测能力. 由金字塔产生的5个特征层: P3、P4、P5、P6和P7上, 每个像素点预设3个锚点框, 锚点框的长宽比为{1:1, 1:2, 2:1}, 尺寸大小为8, 经由RPN[4]调整锚点框的位置生成一系列候选框. 然后选择置信度较高的2000个候选框用于粗略调整阶段, 该模块的回归过程将水平框调整为旋转框. 最后这些候选框进入精细调整阶段, 再次调整旋转框的位置, 得到更好的检测效果. 经过两阶段调整后的框, 选择后一阶段中最大分类数值作为置信度, 同时采用旋转非极大抑制算法处理[23], 选取邻域内置信度较高的框, 并且抑制低置信度的框, 这些高置信度的候选框即为网络输出预测框.

            • 特征金字塔结构[24]被广泛应用于许多先进的目标检测算法中, 这个结构的设计在于浅层的定位信息准确, 深层的语义信息丰富, 通过融合深浅层特征图, 提升对于小目标的检测性能. 如表1所示, RoI-Transformer、CADNet、SCRDet、R3Det和GV R-CNN均采用了深浅层融合特征, 表现出优异的检测性能, 而R2CNN未使用特征融合, 取得的检测结果远低于其他方法. 图3为本文设计的像素重组金字塔(PFPN)结构. 该结构分为两个阶段: 第一阶段为 $ {C}_{i} $ $ {M}_{i} $ , 采用尺度转化的方式, 利用局部特征信息的同时, 融合上下层构建金字塔结构; 第二阶段为 $ {M}_{i} $ $ {P}_{i} $ , 采用非局部(Non-local)注意力[25]模块, 利用全局信息, 突出目标区域的特征.

              表 1  不同方法在DOTA数据集的检测精度对比

              Table 1.  Comparison of detection accuracy of different methods in DOTA

              类别 方法
              R2CNN[10] RT[12] CADNet[13] SCRDet[15] R3Det[16] GV[17] 本文
              PL 80.94 88.64 87.80 89.98 89.24 89.64 89.10
              BD 65.67 78.52 82.40 80.65 80.81 85.00 81.22
              BR 35.34 43.44 49.40 52.09 51.11 52.26 54.47
              GTF 67.44 75.92 73.50 68.36 65.62 77.34 72.97
              SV 59.92 68.81 71.10 68.36 70.67 73.01 79.99
              LV 50.91 73.68 64.50 60.32 76.03 73.14 82.28
              SH 55.81 83.59 76.60 72.41 78.32 86.82 87.64
              TC 90.67 90.74 90.90 90.85 90.83 90.74 90.54
              BC 66.92 77.27 79.20 87.94 84.89 79.02 87.31
              ST 72.39 81.46 73.30 86.86 84.42 86.81 86.33
              SBF 55.06 58.39 48.40 65.02 65.10 59.55 54.20
              RA 52.23 53.54 60.90 66.68 57.18 70.91 68.18
              HA 55.14 62.83 62.00 66.25 68.10 72.94 76.12
              SP 53.35 58.93 67.00 68.24 68.98 70.86 70.83
              HC 48.22 47.67 62.20 65.21 60.88 57.32 59.19
              mAP(%) 60.67 69.56 69.90 72.61 72.81 75.02 76.02

              图  3  像素重组金字塔结构

              Figure 3.  The structure of pixel-recombination pyramid

              在第一阶段中, 特征上采样对于金字塔结构是一个关键的操作. 最常用的特征上采样方式为插值和转置卷积[26]. 插值法仅考虑相邻像素, 无法获取密集预测任务所需的丰富语义信息. 转置卷积作为卷积的逆运算, 将其作为上采样方式存在两点不足[27]: 首先对于整个特征图都采用同样的卷积核, 而不考虑特征图中的目标信息, 限制了上采样过程对于局部变化的响应; 其次, 若采用较大的卷积核将会增加大量参数. 本文引入尺度转换作为特征上采样方法. 深浅层特征融合的操作过程如图4所示. 该方法首先利用“通道转化”方法[28]压缩通道数(本文压缩系数 $ r $ 为0.5), 增大特征图尺寸, 即:

              图  4  特征融合结构

              Figure 4.  The structure of feature fusion

              $${I_{H,W,C}} = {I_{\left\lfloor {H/r} \right\rfloor ,\left\lfloor {W/r} \right\rfloor ,C \cdot {r^2} + r \cdot mod\left( {W,r} \right) + mod\left( {H,r} \right)}}$$ (1)

              然后采用1×1的卷积层用于调整通道数, 再由softmax函数[29]作用于每一通道的特征层, 最后采用公式(2)进行加权求和, 使得特征融合过程更好地利用局部信息.

              $$ \begin{split} &{y}_{m,n,c}=\displaystyle\sum\limits_{i=-2}^{2}\displaystyle\sum\limits_{j=-2}^{2}{x}_{m+i,n+j,c}\cdot {w}_{m,n,k}, \\ &k=\left(i+2\right)*5+j+2 \end{split} $$ (2)

              其中, $ m,n $ 分别表示像素的横纵位置, $ c $ 表示 $ C $ 特征层当前通道, $ k $ 表示 $ M $ 特征层当前通道.

              第二阶段采用Non-local注意力模块, 利用特征图中目标与全局特征的关系, 突出目标区域的响应.

              根据Non-local的定义, 假设 $ C $ 为通道数, $ s $ 为尺度大小, $ {{G}} $ 为特征图尺度的乘积即 $ s\times s,x $ 为输入特征图, $ q\left(x\right) $ $ k\left(x\right) $ $ v\left(x\right) $ 定义为采用不同线性转换的结果:

              $$ q\left({x}^{s}\right)={{W}_{q}^{s}}^{T}{x}^{s} $$ (3)
              $$ k\left({x}^{s}\right)={{W}_{k}^{s}}^{T}{x}^{s} $$ (4)
              $$ v\left({x}^{s}\right)={{W}_{v}^{s}}^{T}{x}^{s} $$ (5)

              其中, 系数矩阵 $ {{W}}_{{q}}^{{s}},{{W}}_{{k}}^{{s}}\in {\cal{R}}^{{\bf{C}}\times {\bf{C}}/8},{{W}}_{{v}}^{{s}}\in {\cal{R}}^{{\bf{C}}\times {\bf{C}}} $ .

              $ {{q}}\left({{x}}^{{s}}\right) $ $ {{k}}\left({{x}}^{{s}}\right) $ 矩阵相乘得二维矩阵 $ {{o}}^{{s}}\in {\cal{R}}^{{\bf{G}}\times {\bf{G}}} $ , 再运用softmax将矩阵的每一行转换为概率值, 最后与 $ {{v}}\left({{x}}^{{s}}\right) $ 矩阵相乘后再与输入相加得输出量 $ {{{x}}^{{s}}}' $ , 见公式(6).

              $$ {{x}^{s}}'={x}^{s}+{\left({o}^{s}v{\left({x}^{s}\right)}^{T}\right)}^{T} $$ (6)

              在本文的特征金字塔结构中, 第一阶段输出的 $ {M}_{3} $ $ {M}_{4} $ 由于尺度较大, 直接用于Non-local模块计算量较大. 因此为了保留这两层的语义信息, 同时再次融合不同层的特征, 该结构将 $ {M}_{3} $ $ {M}_{4} $ 池化为 $ {M}_{5} $ 的尺寸大小, 然后计算这三层的均值输入Non-local模块, 再由插值操作输出对应相等尺寸的特征图. $ {M}_{6} $ $ {M}_{7} $ 的特征图直接应用Non-local模块得到 $ {P}_{6} $ $ {P}_{7} $ 层.

            • 感兴趣区域(Region of Interest, RoI)特征提取模块主要用于固定输出尺寸大小, 提取表征框内区域的特征, 便于后续的网络预测. 本文的RoI特征提取模块主要分为两部分: 粗调阶段的水平框和细调阶段的旋转框RoI特征提取.

              自然场景图像中的目标通常是固定方向呈现, 因此两阶段式目标检测算法采用水平框的RoI特征提取. 目前, 应用较为广泛的RoI特征提取是RoI Pooling[4]和RoI Align[30]. 图5(a)为RoI Pooling的原理图, 选择量化后块中最大像素值作为池化后的结果. 然而量化的结果会导致提取的小目标像素存在偏差, 影响检测效果. 图5(b)为RoI Align的原理图, 取消量化操作, 采用双线性插值在块中计算出N个浮点坐标的像素值, 均值作为块的结果. 然而这个操作存在两点不足: 采样点数量需要预先设置; 不同大小候选框设置了相同数量的采样点.

              图  5  常用RoI特征提取示意图

              Figure 5.  The schematic diagram of common RoI feature extraction

              因此, 本文采用PrRoI Pooling方法[31]的特征提取操作, 如图6所示, 由插值操作将块内特征视为一个连续的过程, 采用积分方法获得整个块的像素和, 其均值作为块的结果, 即:

              $$ IRoIPool\left(bin,{\cal{F}}\right)=\dfrac{{\int }_{{y}_{1}}^{{y}_{2}}{\int }_{{x}_{1}}^{{x}_{2}}f\left(x,y\right)dxdy}{\left({x}_{2}-{x}_{1}\right)\times \left({y}_{2}-{y}_{1}\right)} $$ (7)

              图  6  IRoIPool特征提取示意图

              Figure 6.  The diagram of IRoIPool feature extraction

              其中, $ f(x,y) $ 为采用面积插值法[15]所得的像素值.

              旋转框RoI特征提取直接采用积分操作较为复杂, 因此本文将积分操作视为块内一定数量的像素之和, 从而得到块的均值, 即:

              $$ RRoIPool\left(bin,{\cal{F}}\right)=\frac{\displaystyle\sum\limits _{{y}_{1}}^{{y}_{2}}\displaystyle\sum\limits _{{x}_{1}}^{{x}_{2}}f\left(x,y\right)}{{N}_{x}\times {N}_{y}} $$ (8)
              $$ {N_x} = \left\lfloor {\dfrac{{{x_2} - {x_1}}}{{{l_x}}}} \right\rfloor + 1,{N_y} = \left\lfloor {\dfrac{{{y_2} - {y_1}}}{{{l_y}}}} \right\rfloor + 1 $$ (9)

              其中, $ ({x}_{1},{y}_{1}) $ $ ({x}_{2},{y}_{2}) $ 分别为旋转框在水平位置处的左上和右下角点, $ {l}_{x} $ $ {l}_{y} $ 分别为水平方向和垂直方向的采样距离.

              根据候选框的大小决定采样点的数量. 然而采样距离太小会导致计算量大幅增加, 因此为平衡检测效率与精度, 本文将采样距离 $ {l}_{x} $ $ {l}_{y} $ 设置为0.4.

              旋转框在水平位置处采样点的坐标 $ ({x}_{h},{y}_{h}) $ , 旋转框 $ w $ 所对应的边与横轴正方向的夹角为 $ \theta $ , 旋转框的中心点为 $ ({c}_{x},{c}_{y}) $ , 由式(10)转化为旋转框中的坐标 $ (x,y) $ , 再由面积插值法得到该位置的像素值.

              $$ \left[\!\!\begin{array}{c}x\\ y\end{array}\!\!\right]\!\!=\!\!\left[\!\!\begin{array}{ccc}cos\theta & \!-\!sin\theta & \left(1\!-\!cos\theta \right)\!\cdot\! {c}_{x}\!+\!sin\theta \!\cdot\! {c}_{y}\\ sin\theta & cos\theta & \!-\!sin\theta \!\cdot\! {c}_{x}\!+\!\left(1\!-\!cos\theta \right)\!\cdot\! {c}_{y}\!\end{array}\!\!\right]\left[\!\!\begin{array}{c}{x}_{h}\\ {y}_{h}\\ 1\end{array}\!\!\right] $$ (10)

              图  7  旋转RoI特征提取示意图

              Figure 7.  The diagram of rotated RoI feature extraction

              本文方法与R3Det类似, 都使用了精细调整旋转框的定位. 然而R3Det每一次调整的预测分支直接采用卷积层操作, 而卷积操作为水平滑动, 用于旋转框回归将会包含一些背景像素干扰预测结果, 而本文方法采用旋转框感兴趣区域提取框内的特征信息用于预测, 更加有利于检测性能的提升.

            • 目标检测算法分为定位和分类两个任务. 一般而言, 两级检测器的预测分支采用全连接层, 而单级检测器的预测分支采用卷积层. Wu等[32]发现这两个任务适合于不同的预测分支结构, 全连接层更适合用于分类任务, 卷积层更适合用于回归任务. 因此, 本文采用图8所示的预测分支结构.

              图  8  预测分支结构图

              Figure 8.  The diagram of prediction branch

              在本文采用的预测分支中, 分类结构保持不变, 仍然采用全连接层. 而回归分支采用一系列ResNet网络中的ResBlock结构(本文使用2个).

            • 本文提出网络的损失函数包含RPN阶段 $ {L}_{RPN} $ 、粗略调整阶段 $ {L}_{ro} $ 和精细调整阶段 $ {L}_{re} $ , 即:

              $$ L={L}_{RPN}+{L}_{ro}+{L}_{re} $$ (11)

              每一阶段的损失函数都包含分类损失和回归损失. 分类损失采用交叉熵损失函数[4]. 回归损失采用SmoothLn损失函数[33], 如式(12)所示, 相比于SmoothL1损失函数[4], 该损失函数的一阶导数是连续存在的, 具有良好的光滑性.

              $$ S{L}_{n}\left(x\right)=\left(\left|x\right|+1\right)ln\left(\left|x\right|+1\right)-\left|x\right| $$ (12)
              $$ \dfrac{\partial S{L}_{n}\left(x\right)}{\partial x}=sign\left(x\right)\cdot ln\left(sign\left(x\right)\cdot x+1\right) $$ (13)

              此外, 式(11)中RPN阶段为水平框的回归, 因此使用 $ x,y,w,h $ 四个值代表水平框. 粗调阶段和细调阶段为旋转框的回归, 使用 $ x,y,w,h,\theta $ 五个值代表旋转框, 因此旋转框的回归转换值定义为:

              $$ \left[\begin{array}{c}{t}_{x}\\ {t}_{y}\end{array}\right]\!=\!\left[\begin{array}{cc}cos\theta & sin\theta \\ -sin\theta & cos\theta \end{array}\right]\left[\begin{array}{c}{x}_{t}-{x}_{a}\\ {y}_{t}-{y}_{a}\end{array}\right]\left[\begin{array}{cc}\dfrac{1}{{w}_{a}}& 0\\ 0& \dfrac{1}{{h}_{a}}\end{array}\right] $$ (14)
              $$ {t}_{w}=\log\left(\frac{{w}_{t}}{{w}_{a}}\right),{t}_{h}=\log\left(\frac{{h}_{t}}{{h}_{a}}\right) $$ (15)
              $$ {t}_{\theta }=\left({\theta }_{t}-{\theta }_{a}\right)mod2\pi $$ (16)

              其中, $ x,y,w,h,\theta $ 分别为旋转框中心点的横、纵坐标、框的宽度、高度和旋转角度. $ {x}_{t},{x}_{a} $ 分别表示真实框和候选框的值.

            • 本文的实验设备为英特尔E5-2683 CPU, 英伟达GTX 1080Ti显卡, 64 G内存的服务器, 实验环境为Ubuntu 16.04.4操作系统、Cuda9.0、Cudnn7.4.2、Pytorch1.1.0、Python3.7.

              本文实验中采用3个GPU进行训练, 批处理大小为3(GPU显存限制), 输入图像统一为 $1024\times 1024$ 分辨率. 训练的迭代次数为15轮, 同时使用衰减系数为0.0001、动量为0.9的随机梯度下降(Stochastic Gradient Descent, SGD)作为优化器, 初始的学习率设置为0.01, 分别在第8、第11和第14轮将学习率降低10倍. 图9是在DOTA数据集上训练过程的loss下降曲线图(一个epoch有4500次迭代), 在第8轮(36000次迭代)出现明显的loss下降.

              图  9  在DOTA上训练过程loss曲线图

              Figure 9.  Train Loss on DOTA

            • 本文使用DOTA[21]用于算法的评估. DOTA是由旋转框标注的大型公开数据集, 主要用于遥感图像目标检测任务. 该数据集包含由各个不同传感器和平台采集的2806张图像, 图像的大小范围从800×800到4000×4000像素, 含有各种尺度、方向和形状. 专家选择15种常见类别对这些图像进行标注, 总共标注188282个目标对象, 包括飞机(PL)、棒球场(BD)、桥梁(BR)、田径场(GTF)、小型车辆(SV)、大型车辆(LV)、船舶(SH)、网球场(TC)、篮球场(BC)、储油罐(ST)、足球场(SBF)、环形车道(RA)、港口(HA)、游泳池(SP)和直升机(HC). 另外该数据集选取一半的图像作为训练集, 1/6作为验证集, 1/3作为测试集, 其中测试集的标注不公开. 为降低高分辨率图像由于压缩对于小目标的影响, 本文将所有图像统一裁剪为1024×1024的子图像, 重叠为200像素.

            • 本文方法采用ResNet50与可变形卷积[34](Deformable Convolutional Networks, DCN)相结合作为基础网络进行本节实验. 为了评估本文方法的性能, 实验中的方法均选择trainval中的图像作为训练数据, test中的图像作为测试数据. 实验结果通过提交到DOTA评估服务器上获得, 本文方法的评估结果mAP为0.7602, 超过目前官方提供的基准方法[21].

              除了与官方基准方法进行对比, 本节实验还与R2CNN[10]、RoI-Transformer[12]、CADNet[13]、SCRDet[15]、R3Det[16]和GV R-CNN[17]进行对比分析, 各方法的检测结果如表1所示. 表中RT、GV分别为RoI-Transformer方法、GV R-CNN方法的简称.

              表1中的检测结果可以看出, 本文方法的检测结果优于其它方法, 达到76.02%的mAP. 其中桥梁、小型车辆、大型车辆、船舶和港口这些类别取得较高检测精度. 从图10中可以看出, 这些类别的目标在遥感数据集中尺寸较小, 并且往往呈现出密集排列, 因此说明本文方法对于在这类场景的检测更具有优势. 此外, 飞机、网球场、篮球场、储水池、游泳池等类别在遥感数据集中尺寸较大, 对于这些目标本文方法仍取得与其它方法中最高检测精度相差不大的结果. 这些检测结果说明本文方法能够有效地用于检测遥感图像中的目标.

              图  10  各类别检测结果展示

              Figure 10.  Visualization of each category detection

            • (1)各模块对于检测精度的影响

              为了验证本文方法中各模块的有效性, 本节进行了一系列对比实验. 表2展示了网络在DOTA数据集上不同模块设置的检测结果. 其中“Baseline”表示本节实验的基准设置, “ConvFc”表示采用1.4节所设计的预测分支结构. 以下为对比实验的分析:

              表 2  R2-FRCNN模块分离检测结果

              Table 2.  R2-FRCNN module separates detection results

              模块 R2-FRCNN
              Baseline
              精细调整
              IRoIPool
              RRoIPool
              PFPN
              SmoothLn
              ConvFc
              mAP(%) 69.52 73.62 73.99 74.31 74.97 75.13 75.96

              基准设置: 本节实验将扩展后的Faster R-CNN OBB[21]用于旋转框检测任务. 其中, 基础网络采用ResNet50[22], 并且采用特征金字塔[24](Feature Pyramid Networks, FPN), RoI特征提取采用RoI Align[30], 回归分支采用SmoothL1损失函数[4]. 为了保证实验的公平性和准确性, 后续实验参数设置都是严格一致.

              精细调整: 在实验的精细调整阶段, 初始候选区域特征提取选择RRoI Align(Rotated RoI Align)方法, 该方法为RoI Align[30]在旋转框中的应用. 由表2的结果显示, 精细调整阶段的添加, 使得检测效果得到大幅提升, 评估指标mAP增加4.10%. 说明提取旋转候选框内像素进一步调整是有必要的, 这个阶段避免了水平框特征提取包含过多背景像素的问题, 从而提升对较大横纵比目标的检测效果. 然而在实验中发现, 在精细调整结构中多次调整提升效果并不明显, 从一次调整增加为两次调整, mAP为73.68%, 仅仅增加0.06%, 因此为了减少参数量, 本文后续实验的精细调整阶段采用一次调整过程.

              RoI特征提取: 实验中将1.3节提出的IRoIPool和RRoIPool用于替换初始两阶段调整模块的RoI Align和RRoI Align. 由表2的实验结果显示, 相比于初始RoI特征提取方法, IRoIPool方法使得检测精度mAP提升0.37%, RRoIPool方法使得检测精度mAP提升0.32%, 说明本文设计的RoI特征提取更为有效. 本文后续将对这两个特征提取方法的结构作进一步研究.

              PFPN结构: 为了更好地验证PFPN的作用, 本文对此设计了两组实验. 第一组, 金字塔结构的深浅层不进行尺寸转化和Non-local模块, 仅仅采用 $ 1\times 1 $ 的卷积将特征层的通道数转化为256, 网络的其它结构和训练超参数保持一致, mAP仅仅为64.55%, 由于DOTA数据集中小目标较多, 因此说明PFPN金字塔结构对于小目标的检测效果显著. 第二组实验的结果由表2显示, 相比于FPN, PFPN使得mAP提升0.66%. 说明本文提出的PFPN结构对于遥感目标的检测更为有效.

              网络预测分支: 本节针对预测分支进行两部分的实验, 即回归损失函数和预测分支结构. 由表2可以看出, 相比于SmoothL1, 回归损失函数采用SmoothLn, 使得检测精度mAP提升0.16%. 此外, 采用2.4节所设计的预测分支结构, 分类过程采用全连接层, 回归过程采用卷积层, 仅增加2个ResBlock模块, 使得mAP提升0.83%. 由此说明回归过程采用SmoothLn函数和卷积层更加适合旋转框目标检测.

              (2)感兴趣区域特征提取模块研究

              本节研究不同RoI特征提取结构对于检测精度的影响, 实验分为两部分: 水平候选框特征提取方法、旋转候选框特征提取方法. 实验结果分别见表3表4所示.

              表 3  不同水平框特征提取方法的实验结果

              Table 3.  Experimental results of feature extraction methods of different horizontal boxes

              模块 Baseline + 精细调整
              方法 RoI Pooling RoI Align IRoIPool
              mAP(%) 71.21 73.62 73.99

              表 4  不同旋转框特征提取方法的实验结果

              Table 4.  Experimental results of different feature extraction methods of rotated boxes

              模块 Baseline + 精细调整 + IRoIPool
              方法 RRoI A-Pooling RRoI Align RRoIPool
              mAP(%) 73.38 73.99 74.31

              表3的实验结果显示, 采用RoI Pooling方式的检测精度相对较低, 其量化操作降低了对于小目标的检测效果. 而RoI Align方式取消量化操作, 采用插值方式使得mAP提升2.41%, 说明提取连续的特征有利于目标检测. 本文方法在面积插值法的基础上引入积分操作, mAP提升0.37%. 相比于前一种方式选取固定数量的像素点, 本文采用的积分操作类似于选取较多点, 可以提取更多特征, 有利于检测效果的提升.

              表4为采用不同旋转框特征提取方法的检测结果. 第一种方法RRoI A-Pooling选取旋转框内的像素点, 像素均值作为提取的特征. 第二种方法采用类似RoI Align的方式在旋转框内选择浮点数坐标, 运用双线性插值获得对应的像素值, mAP提升0.61%. 本文采用方法RRoIPool可以根据旋转框大小选择不同数量的像素点表示特征. 相比于第二种方式提升0.32%, 说明本文采用的旋转框特征提取方式更适合于精细调整模块.

            • 基于深度学习的目标检测算法在自然场景图像中取得了很大进展. 然而遥感图像存在背景复杂、小目标较多、排列方向任意等难点, 常见的目标检测算法并不满足这类场景的应用需求. 因此本文提出一种粗调与细调两阶段结合的旋转框检测网络R2-FRCNN用于遥感图像检测任务. 并且设计像素重组金字塔结构, 提高复杂背景下小目标的检测性能. 同时在粗调阶段设计一种水平框特征提取方法IRoIPool, 细调阶段设计旋转框特征提取方法RRoIPool. 此外, 本文还采用SmoothLn回归损失函数, 以及全连接层和卷积层结合的预测分支, 进一步提升检测精度. 实验结果表明本文方法在大型公共数据集DOTA上获得了较好的检测效果. 然而本文方法存在检测速度较慢、GPU资源消耗较大等缺点, 因此在后续的工作中也将针对网络的轻量化展开进一步研究.

          WeChat 关注分享

          返回顶部

          目录

            /

            返回文章
            返回