9日前

マスク意識を備えたエンドツーエンド連鎖的リファインメントによる画像補完

Manyu Zhu, Dongliang He, Xin Li, Chao Li, Fu Li, Xiao Liu, Errui Ding, Zhaoxiang Zhang
マスク意識を備えたエンドツーエンド連鎖的リファインメントによる画像補完
要約

任意の欠損領域の補完は、さまざまなマスク領域に対して有効な特徴を学習することが難しいため、挑戦的な課題である。U字型のエンコーダ・デコーダフレームワークが成功を収めたことは広く知られているが、その多くは特徴抽出段階でマスクに無関心(mask unawareness)であるという共通の欠点を有している。これは、欠損ピクセルが多様な形状をとる領域を含むすべての畳み込み窓(または領域)が同等に扱われ、固定された学習済みカーネルによってフィルタリングされるためである。このような問題に対処するため、本研究では新たなマスクに配慮した補完手法を提案する。まず、エンコーディング段階において、欠損領域の多スケール特徴を効果的に学習できる「マスクに配慮した動的フィルタリング(Mask-Aware Dynamic Filtering, MADF)」モジュールを設計した。具体的には、各畳み込み窓に対するフィルタを、対応するマスク領域の特徴から生成する。第二のマスクに配慮した設計は、デコーディング段階でポイントワイズ正規化(Point-wise Normalization, PN)を導入することで実現した。これは、マスク領域内の特徴とマスク外領域の特徴の統計的性質が異なることに着目したものである。提案するPNは、各ポイントに対して動的にスケーリング係数とバイアスを割り当てることで、この差異に対処する。最後に、本モデルはエンド・ツー・エンドの段階的精緻化(cascaded refinement)構造として設計されており、再構成誤差、周辺的損失(perceptual loss)、全変動損失(total variation loss)といった監視情報が粗い段階から細かい段階へと段階的に活用される。これにより、補完結果が粗いものから高精度なものへと徐々に向上する。提案フレームワークの有効性は、Places2、CelebA、Paris StreetViewの3つの公開データセットを用いた広範な実験を通じて、定量的および定性的な観点から検証された。