RetinaNet深度学习模型突破航空图像目标检测难题

汇聚之精 2026-05-15 4848人围观

你是否好奇,计算机是如何从一张高分辨率的卫星或航拍图像中,精准识别出几十个甚至上百个不同目标的?这些目标有的呈任意方向,有的尺寸差异极大,背景更是复杂多变。面对这样的挑战,一个名为RetinaNet的深度学习模型交出了亮眼的答卷——它让One-stage检测器超越了传统Two-stage方法的精度,成为了航空图像分析领域的重要工具。

DOTA数据集

航空图像与普通图像不同:

目标方向任意(不再是“正”着的汽车)

目标尺寸变化极大(从大型桥梁到小型车辆)

背景复杂(机场、港口、居民区混杂)

DOTA数据集(Dataset forObject deTection inAerial images)正是为此而生。它包含2806张高分辨率图像,累计标注了超过18万个目标,涵盖飞机、船舶、车辆、港口、桥梁等18个类别。

值得注意的是,DOTA的标注方式非常特殊——用四个点的坐标表示一个旋转框,而不是普通的水平矩形框。这是因为航空图像中的目标往往朝向任意方向,只有旋转框才能精确贴合。

每一行标注包含10个数值,前8个是旋转矩形四个角的坐标,第9个是类别,第10个表示识别难易程度。标注格式为:

(x1, y1, x2, y2, x3, y3, x4, y4, category, 0/1)*0代表容易被检测,1代表不容易被检测

为了让模型更鲁棒,研究者们还对图像进行了数据增强,包括亮度调整、加噪声、旋转、镜像、平移、裁剪等。这些操作不仅增加了数据多样性,也让模型更好地适应真实场景。

RetinaNet:

One-stage首次超越Two-stage

在RetinaNet出现之前,目标检测领域有两个阵营:

Two-stage(如Faster R-CNN):

精度高,但速度慢

One-stage(如SSD):

速度快,但精度往往不如前者

RetinaNet的突破在于:它让One-stage在精度上超越了Two-stage方法。

核心秘诀就是Focal Loss(焦点损失)。

在结构上,RetinaNet 没有沿用特征金字塔网络(FPN)的完整路径,而是直接从 C3 层开始生成 P3 特征层,跳过了计算量较大的 C2;P6 也不是简单的最大池化,而是通过卷积下采样得到,特征层级更是一直延伸到 P7,覆盖了从几十像素到八百多像素的广阔目标尺度。

在 P3 到 P7 的每一层,RetinaNet 都为每个位置预先设置了 9 个锚框——3 种尺度搭配 3 种长宽比,确保无论目标是大是小、是方是长,都能被“框”住。

51796998-4ce9-11f1-90a1-92fbcf53809c.png

*图片来自于文章“光计算在RetinaNet目标检测任务中的应用”

在预测器的设计上,RetinaNet 采用了一种极其简洁却高效的思路:用两个并行的全卷积分支,一个负责分类,一个负责回归,而且所有特征层共享同一套卷积权重。分类分支输出“类别数 × 锚框数”的通道,回归分支则输出“4 × 锚框数”的偏移量参数,这种结构既保持了计算的高效性,又让预测结果与每个锚框一一对应。

*图片来自于文章“光计算在RetinaNet目标检测任务中的应用”

而在样本匹配策略上,RetinaNet 同样干净利落——只要锚框与真实框的交并比(IoU)大于 0.5 就视为正样本,小于 0.4 则为负样本,介于中间的则直接忽略。正是这样一套“结构+预测+匹配”的组合,为后续 Focal Loss 的发挥打下了坚实的基础。

522d36da-4ce9-11f1-90a1-92fbcf53809c.png

*图片来自于文章“光计算在RetinaNet目标检测任务中的应用”

Focal Loss:从“淹没”到“聚焦”

RetinaNet真正的灵魂,是Focal Loss(焦点损失)。

问题:负样本泛滥

在单阶段检测器中,锚框数量巨大(例如几十万个),但正样本往往只有几十个。即使采用正负样本1:3的采样策略,训练过程仍然被大量容易区分的负样本主导。

解决方案:动态缩放

传统的交叉熵损失(CE)对所有样本一视同仁。Focal Loss引入了一个调制因子:

当样本容易区分(Pt接近1)时,(1-Pt)y接近0,损失被大幅压低。

当样本难以区分(Pt较小)时,调制因子接近1,损失基本保留。

配合平衡因子⍺t,Focal Loss同时解决了正负样本不平衡和难易样本不平衡两大问题。

模型量化:让RetinaNet“轻装上阵”

当模型训练完成,下一步就是部署。在光计算等硬件平台上,模型需要从浮点精度转换为定点精度,这个过程称为模型量化。

工具:MOCA

MOCA是一套基于MQBench的量化工具,支持8/4/3/2bit的定点量化,并能够导出适用于光计算硬件的ONNX模型。

QAT训练:低比特训练

QAT(量化感知训练)通过在训练过程中模拟量化误差,让模型提前适应低比特表示。在RetinaNet的QAT训练中,研究者对比了不同输入尺寸和光计算模拟器的效果:

1024×1024输入:mAP较高,但计算量更大

512×512输入:速度更快,精度略有下降

最终在光计算模拟器上的测试结果证明,量化后的RetinaNet仍能保持较高的检测精度,同时大幅提升推理效率。

如果你对技术细节感兴趣,欢迎阅读原文。

参考文献

[1] 曦智科技. 光计算在RetinaNet目标检测任务中的应用[EB/OL]. 2026-04-02. https://www.xztech.ai/community/cases/1.

Powered By Z-BlogPHP