2ヶ月前

多様な画像間変換を実現するための分離表現を利用した手法

Hsin-Ying Lee; Hung-Yu Tseng; Jia-Bin Huang; Maneesh Kumar Singh; Ming-Hsuan Yang
多様な画像間変換を実現するための分離表現を利用した手法
要約

画像間変換の目的は、2つの視覚ドメイン間のマッピングを学習することである。多くのアプリケーションにおいて、主に2つの課題が存在する:1) 対応した訓練ペアの不足と 2) 単一の入力画像から複数の可能な出力があることである。本研究では、対応した訓練画像なしで多様な出力を生成するための分離表現に基づく手法を提案する。多様性を達成するために、画像を2つの空間に埋め込むことを提案する:ドメイン不変のコンテンツ空間(各ドメイン間で共有される情報を捉える)とドメイン固有の属性空間である。モデルは、与えられた入力から抽出されたエンコードされたコンテンツ特徴量と、属性空間からサンプリングされた属性ベクトルを取り入れて、テスト時に多様な出力を生成する。対応しない訓練データに対処するために、分離表現に基づいた新しいクロスサイクル一貫性損失を導入する。定性的結果は、当モデルが幅広いタスクにおいて対応した訓練データなしで多様かつ現実的な画像を生成できることを示している。定量的な比較のために、ユーザースタディにより現実性を測定し、知覚距離指標により多様性を評価する。提案手法をドメイン適応に適用し、MNIST-MおよびLineModデータセットにおける最先端手法との競争力のある性能を示す。注:「MNIST-M」および「LineMod」は特定のデータセット名であり、そのまま使用しました。