姿勢を利用したクロスドメイン補完学習による多人物部位セグメンテーション

監督付き深層学習をピクセル単位のトレーニングラベルと共に使用することで、多人数の部位セグメンテーションにおいて大きな成功が得られています。しかし、ピクセルレベルでのデータラベリングは非常にコストが高いです。この問題を解決するために、合成データを使用してデータラベリングを避ける方法が探索されています。合成データのラベル生成は容易ですが、実際のデータと手動でラベリングされたデータを使用する場合に比べて、結果は著しく劣ります。性能の低下は主にドメインギャップ(領域間の乖離)、つまり実際のデータと合成データにおけるピクセル値統計の相違によるものです。本論文では、実際の人間と合成の人間が両方とも骨格(ポーズ)表現を持っていることを観察しました。私たちは、骨格が訓練中に合成領域と実際の領域を効果的に橋渡すことができることを見出しました。提案手法は、実際のデータに豊富で現実的な変異があり、合成データから容易に取得できるラベルを利用し、人間によるアノテーションなしで実際の画像上で多人数部位セグメンテーションを学習します。実験を通じて示したように、Pascal-Person-Parts および COCO-DensePose データセットにおいて人間によるラベリングを必要とするいくつかの最先端手法と比較して同等以上の性能を達成しています。一方で、訓練時に実際の画像にも部位ラベルが利用可能である場合は、提案手法は監督付き最先端手法よりも大幅に優れた性能を発揮します。さらに、新しいキーポイント検出のために実際のデータにラベルがない場合でも、提案手法が新しいキーポイント予測における汎化能力を持つことを示しています。コードと事前学習済みモデルは https://github.com/kevinlin311tw/CDCL-human-part-segmentation から入手可能です。