RetinaNet深度学习模型突破航空图像目标检测难题

汇聚之精 2026-05-15 共4848人围观

你是否好奇，计算机是如何从一张高分辨率的卫星或航拍图像中，精准识别出几十个甚至上百个不同目标的？这些目标有的呈任意方向，有的尺寸差异极大，背景更是复杂多变。面对这样的挑战，一个名为RetinaNet的深度学习模型交出了亮眼的答卷——它让One-stage检测器超越了传统Two-stage方法的精度，成为了航空图像分析领域的重要工具。

DOTA数据集

航空图像与普通图像不同：

目标方向任意（不再是“正”着的汽车）

目标尺寸变化极大（从大型桥梁到小型车辆）

背景复杂（机场、港口、居民区混杂）

DOTA数据集（Dataset forObject deTection inAerial images）正是为此而生。它包含2806张高分辨率图像，累计标注了超过18万个目标，涵盖飞机、船舶、车辆、港口、桥梁等18个类别。

值得注意的是，DOTA的标注方式非常特殊——用四个点的坐标表示一个旋转框，而不是普通的水平矩形框。这是因为航空图像中的目标往往朝向任意方向，只有旋转框才能精确贴合。

每一行标注包含10个数值，前8个是旋转矩形四个角的坐标，第9个是类别，第10个表示识别难易程度。标注格式为：

（x1, y1, x2, y2, x3, y3, x4, y4, category, 0/1）*0代表容易被检测，1代表不容易被检测

为了让模型更鲁棒，研究者们还对图像进行了数据增强，包括亮度调整、加噪声、旋转、镜像、平移、裁剪等。这些操作不仅增加了数据多样性，也让模型更好地适应真实场景。

RetinaNet：

One-stage首次超越Two-stage

在RetinaNet出现之前，目标检测领域有两个阵营：

Two-stage（如Faster R-CNN）：

精度高，但速度慢

One-stage（如SSD）：

速度快，但精度往往不如前者

RetinaNet的突破在于：它让One-stage在精度上超越了Two-stage方法。

核心秘诀就是Focal Loss（焦点损失）。

在结构上，RetinaNet 没有沿用特征金字塔网络（FPN）的完整路径，而是直接从 C3 层开始生成 P3 特征层，跳过了计算量较大的 C2；P6 也不是简单的最大池化，而是通过卷积下采样得到，特征层级更是一直延伸到 P7，覆盖了从几十像素到八百多像素的广阔目标尺度。

在 P3 到 P7 的每一层，RetinaNet 都为每个位置预先设置了 9 个锚框——3 种尺度搭配 3 种长宽比，确保无论目标是大是小、是方是长，都能被“框”住。

*图片来自于文章“光计算在RetinaNet目标检测任务中的应用”

在预测器的设计上，RetinaNet 采用了一种极其简洁却高效的思路：用两个并行的全卷积分支，一个负责分类，一个负责回归，而且所有特征层共享同一套卷积权重。分类分支输出“类别数 × 锚框数”的通道，回归分支则输出“4 × 锚框数”的偏移量参数，这种结构既保持了计算的高效性，又让预测结果与每个锚框一一对应。

*图片来自于文章“光计算在RetinaNet目标检测任务中的应用”

而在样本匹配策略上，RetinaNet 同样干净利落——只要锚框与真实框的交并比（IoU）大于 0.5 就视为正样本，小于 0.4 则为负样本，介于中间的则直接忽略。正是这样一套“结构+预测+匹配”的组合，为后续 Focal Loss 的发挥打下了坚实的基础。