SRCD: 単一ドメインの汎化オブジェクト検出における複合ドメインの意味論的推論

本論文では、単一ドメインの汎化された物体検出(Single-DGOD)のための新しいフレームワークを提供します。Single-DGODは、自己拡張複合クロスドメインサンプルの意味構造を学習し、維持することにより、モデルの汎化能力を向上させることに焦点を当てています。複数のソースドメインで訓練されるDGODとは異なり、単一のソースドメインのみを使用して複数のターゲットドメインにうまく汎化することは非常に困難です。既存の手法は、主にDGODから類似したアプローチを取り入れ、意味空間を分離または圧縮することで領域不変特徴量を学習しようとしますが、これには2つの潜在的な制限があると考えられます:1) 極端に少ない単一ドメインデータによる疑似属性ラベル相関;2) 意味的な構造情報が通常無視されること、つまりサンプル内のインスタンスレベルでの意味関係の親和性がモデルの汎化にとって重要であることがわかったことです。本論文では、単一ドメイン向け汎化物体検出(Single-DGOD)のために複合ドメインにおける意味推論(Semantic Reasoning with Compound Domains: SRCD)を提案します。具体的には、SRCDは2つの主要なコンポーネントで構成されています。すなわち、テクスチャベースの自己拡張(Texture-Based Self-Augmentation: TBSA)モジュールと局所-全体的な意味推論(Local-Global Semantic Reasoning: LGSR)モジュールです。TBSAは、軽量かつ効率的な自己拡張によって画像レベルでの光や影、色などのラベルに関連する不要な属性の影響を排除することを目指しています。さらに、LGSRはインスタンス特徴量上の意味的な関係をモデル化し、内在的な意味構造を見出し維持するために使用されます。複数のベンチマークでの広範な実験により、提案されたSRCDの有効性が示されています。