Command Palette
Search for a command to run...
カテゴリレベルのオブジェクトポーズ推定のためのソースフリーかつ画像のみの教師なしドメイン適応
カテゴリレベルのオブジェクトポーズ推定のためのソースフリーかつ画像のみの教師なしドメイン適応
Prakhar Kaushik Aayush Mishra Adam Kortylewski Alan Yuille
概要
RGB画像のみを用いて、ソースドメインのデータや3Dアノテーションにアクセスせずに、ターゲットドメインへの「ソースフリー無監督カテゴリレベルポーズ推定」を実現する問題を検討する。現実世界の3Dデータと対応する画像の収集およびアノテーションは、人的・経済的コストが非常に高く、また避けがたいプロセスである。なぜなら、たとえ3Dポーズドメイン適応手法であっても、ターゲットドメインにおいては3Dデータが必要となるからである。本研究では、3Dデータや深度情報に依存せずに、ノイズの多いターゲットドメインへ適応可能な「3DUDA」という手法を提案する。本手法の鍵となる洞察は、特定のオブジェクトサブパーツがドメイン外(OOD)状況においても安定した特徴を維持することに着目した点である。これにより、これらの不変なサブコンポーネントを戦略的に活用することで、モデルの効果的な更新が可能となる。我々は、オブジェクトカテゴリを単純な直方体メッシュとして表現し、微分レンダリングを用いて各メッシュ頂点におけるニューラル特徴の生成モデルを学習する。個々の局所的にロバストなメッシュ頂点特徴に着目し、グローバルなポーズが正しくない状況下でも、ターゲットドメインの対応する特徴との類似度に基づいて、逐次的にこれらの特徴を更新する。その後、EM(Expectation-Maximization)の枠組みでモデルを訓練し、頂点特徴と特徴抽出器の更新を交互に繰り返す。本手法が、やや緩い仮定のもとで、グローバルな擬似ラベル付きデータに対するファインチューニングを模倣できることを示し、その収束がターゲットドメインに漸近的に達することを確認した。さらに、実世界のノイズ、合成ノイズ、オクルージョンを組み合わせた極めて複雑な極端なUDA(Unsupervised Domain Adaptation)設定において、広範な実証的検証を実施した結果、本手法のシンプルなアプローチがドメインシフトの課題に対処する上で極めて有効であり、ポーズ推定精度を著しく向上させることを実証した。