
要約
ドメイン適応オブジェクト検出(DAOD)は、ラベル付きドメイン(ソース)を活用して、ラベルなしの新規ドメイン(ターゲット)へ一般化可能なオブジェクト検出器を学習する手法である。近年の進展では、教師-生徒フレームワークが用いられており、生徒モデルが教師モデルから得られる擬似ラベルによって監督される。このアプローチは高い成果を上げているが、ドメインシフトによって生じる誤った予測による擬似ボックス数の制限が課題となっており、これにより生徒モデルが最適でない結果に陥るリスクがある。この問題を緩和するため、本研究ではマスクド再訓練教師-生徒フレームワーク(MRT)を提案する。本手法は、検出Transformerにマスクド自己符号化器(masked autoencoder)と選択的再訓練機構を組み合わせることで、ターゲットドメインの特徴をより効果的に捉えることを可能にする。具体的には、ターゲット画像のマルチスケール特徴マップをマスクし、生徒モデルのエンコーダと補助デコーダを用いて特徴を再構成するカスタム設計のマスクド自己符号化器ブランチを提案する。これにより、生徒モデルはターゲットドメインの特性をよりよく学習し、限られた数の擬似ボックスからも効率的に知識を獲得できるようになる。さらに、選択的再訓練機構を導入し、定期的に生徒モデルの一部パラメータをマスクド自己符号化器によって精練された重みで再初期化することで、誤った擬似ラベルに偏った局所最適解から脱出する能力を付与する。3つのDAODベンチマークにおける実験結果から、本手法の有効性が確認された。コードは以下のURLから入手可能である:https://github.com/JeremyZhao1998/MRT-release。