
半教師あり物体検出(Semi-Supervised Object Detection: SSOD)は、R-CNN系およびアンカー不要型検出器の性能向上において成功を収めてきた。しかし、ワンステージ型アンカー付き検出器は、高品質かつ柔軟な偽ラベル(pseudo labels)を生成するための構造を欠いており、SSODにおいて重大な不整合問題を引き起こしている。本論文では、スケーラブルかつ効果的なワンステージ型アンカー付きSSOD学習を実現するための「Efficient Teacher」フレームワークを提案する。本フレームワークは、Dense Detector、Pseudo Label Assigner、Epoch Adaptorの3つのモジュールから構成される。Dense Detectorは、YOLOv5の発想を基にした密サンプリング技術を導入したRetinaNetの拡張版であるベースラインモデルである。Efficient Teacherフレームワークは、Dense Detectorから得られる偽ラベルをより洗練された形で活用する新たな偽ラベル割り当て機構、すなわちPseudo Label Assignerを導入している。また、Epoch Adaptorは、Dense Detectorに対する安定的かつ効率的なエンドツーエンドの半教師あり学習スケジュールを実現する手法であり、ドメインおよび分布の適応(domain and distribution adaptation)を活用して、Dense Detectorがグローバルに一貫した特徴を学習できるようにしている。これにより、ラベル付きデータの割合に依存しない学習が可能となる。Pseudo Label Assignerは、学生-教師相互学習メカニズムにおいて大量の低品質な偽ラベルがDense Detectorに悪影響を及ぼす可能性を防ぐことで、バイアスの発生を抑制する。実験の結果、Efficient Teacherフレームワークは、VOC、COCO-standard、COCO-additionalの各データセットにおいて、従来手法よりも少ないFLOPsで最先端の性能を達成した。本研究の知見によれば、これはYOLOv5に半教師あり物体検出を適用した初の試みである。コードは公開されている:https://github.com/AlibabaResearch/efficientteacher