曖昧性に強い半教師あり学習を用いた密集物体検出

基本的な半教師付き物体検出(Semi-Supervised Object Detection: SSOD)手法では、一段階検出器は二段階クラスタと比較して一般的に限られた性能向上しか得られません。実験的に、その原因が2つの種類の曖昧さにあることが判明しました:(1) 選択の曖昧さで、選択された疑似ラベルの精度が低いこと。これは分類スコアが位置特定の品質を適切に表現できないためです。(2) 付与の曖昧さで、サンプルが誤ったラベルとマッチングされること。これは対象物を見逃したり、不正確な疑似ボックスを使用したりすることで戦略が誤導されるためです。これらの問題に対処するため、私たちは一段階検出器向けに曖昧さ耐性のある半教師付き学習(Ambiguity-Resistant Semi-supervised Learning: ARSL)を提案します。具体的には、選択の曖昧さを軽減するために、Joint-Confidence Estimation (JCE) を提案し、疑似ラベルの分類と位置特定の品質を共同で量化します。付与の曖昧さについては、Task-Separation Assignment (TSA) を導入し、信頼性の低い疑似ボックスではなくピクセルレベルの予測に基づいてラベルを割り当てます。この方法は「分割統治」戦略を採用し、分類タスクと位置特定タスクのためにポジティブサンプルを別々に利用することで、付与の曖昧さに対するロバスト性を高めます。包括的な実験により、ARSLはこれらの曖昧さを効果的に軽減し、MS COCO および PASCAL VOC 上で最先端の SSOD 性能を達成することが示されました。コードは https://github.com/PaddlePaddle/PaddleDetection から入手できます。