
現代の物体検出器の学習における重要なボトルネックの一つは、画像内のすべての物体に対してバウンディングボックスのラベルを手動で付与する必要がある点である。この問題は、特に航空画像において顕著となる。航空画像では、高解像度画像上に多数の小さな物体が集団的に分布しており、ラベリング作業が極めて困難である。近年、疑似ラベル(pseudo-labels)と弱-強増強の一貫性(weak-strong augmentation consistency)を用いた「Mean-Teacher」アプローチが、半教師あり物体検出において注目を集めている。しかし、小さな集団化した物体が頻繁に存在する航空画像に対して、この半教師あり検出器をそのまま適用しても、最適な性能を得ることは難しい場合がある。本論文では、学習中に小さな物体の集団(クラスタ)を特定し、その情報を活用して推論時の性能を向上させる「密度クロップ誘導型半教師あり物体検出器(density crop-guided semi-supervised detector)」を提案する。学習段階では、ラベル付きおよびラベルなし画像から同定された物体クラスタに対応する画像クロップを用いて訓練データを拡張する。これにより、小さな物体の検出確率が向上し、ラベルなし画像上での良好な疑似ラベルの生成が可能になる。推論段階では、検出対象の物体だけでなく、小さな物体が高密度に分布する領域(密度クロップ)も同定できる。入力画像からの検出結果と、これらの密度クロップからの検出結果を統合することで、特に小さな物体に対する全体的な検出精度が向上する。VisDroneおよびDOTAという代表的なベンチマークデータセットにおける実証的な評価結果から、本手法が基本的なMean-Teacher法と比較して、COCO形式のAP(Average Precision)において平均2%以上の向上を示すことが確認された。本研究のコードは以下のURLから公開されている:https://github.com/akhilpm/DroneSSOD。