
クロスドメイン弱教師ありオブジェクト検出(CDWSOD)は、画像レベルのラベルが容易に入手可能な新しいターゲットドメインに検出モデルを適応することを目的としている。この分野における精度の鍵となるのは、ソースドメインとターゲットドメイン間の整合性をいかに確保するかである。従来の手法は、ドメイン整合のための部分的な検出コンポーネントに注目しているが、本論文では、検出パイプライン全体のコンポーネントが重要であることに着目し、包括的かつ階層的な特徴整合(Holistic and Hierarchical Feature Alignment, H²FA)R-CNNを提案する。H²FA R-CNNは、バックボーン特徴に対して2つの画像レベルの整合を強制し、RPNおよび検出ヘッドに対して2つのインスタンスレベルの整合を実現する。この粗いレベルから細かいレベルへと段階的に整合を行う階層構造は、検出パイプラインの処理順序(下位から上位へと画像レベル特徴とインスタンスレベル特徴を処理する)と整合している。特に、本研究では、2つのインスタンスレベル整合を学習するための新しいハイブリッド監督手法を考案した。この手法により、RPNおよび検出ヘッドは、ターゲットドメインからの弱監督とソースドメインからの完全監督を同時に受けることが可能となる。これらの特徴整合を統合することで、H²FA R-CNNはソースドメインとターゲットドメインの間の乖離を効果的に低減する。実験結果から、H²FA R-CNNはクロスドメインオブジェクト検出の精度を顕著に向上させ、代表的なベンチマークにおいて新たなSOTA(状態の最良)を達成した。コードおよび事前学習済みモデルは、https://github.com/XuYunqiu/H2FA_R-CNN にて公開されている。