
要約
最先端の物体検出器は通常、公開データセット上で訓練される。しかし、画像条件が著しく異なる別ドメインへの適用においては、対応するアノテーション付きデータが入手不可能(または取得に高コスト)であるため、大きな課題に直面する。この問題に対する自然な対策として、両ドメイン間の画像表現を一致させるモデルの適応が挙げられる。例えば、敵対的学習を用いることでこれを実現でき、画像分類などのタスクにおいて有効であることが示されている。しかし、我々の調査では、物体検出においてはこのようなアプローチによる性能向上は限定的であることが明らかになった。その主な理由は、従来のドメイン適応手法が画像全体を統合的に一致させようとするのに対し、物体検出は本質的に物体に関連する局所領域に焦点を当てる点にある。この点に着目し、本研究では「どこを見るか」と「どのように一致させるか」という課題に対処するための、物体検出向け新しいドメイン適応手法を提案する。本手法の核心的なアイデアは、物体検出に直接関連する判別性の高い領域(discriminative regions)を抽出し、その領域に注目して両ドメイン間で表現を一致させることにある。実験の結果、提案手法はさまざまなドメインシフト環境下で既存手法に比べて顕著に優れた性能を示し、約4~6%の向上を達成しつつ、良好なスケーラビリティを維持していることが確認された。