9日前

グローバルなコンテキスト相互作用を橋渡しする高精細な画像補完

Chuanxia Zheng, Tat-Jen Cham, Jianfei Cai, Dinh Phung
グローバルなコンテキスト相互作用を橋渡しする高精細な画像補完
要約

大規模なマスクを用いた高精度な画像補完において、グローバルなコンテキスト相互作用を適切に捉えることは重要である。従来の手法では、深層または大きな受容 field(RF)を持つ畳み込み層を用いてこの課題に取り組んできたが、これらは近傍の相互作用の支配に陥りやすく、その結果として性能が劣ることがある。本論文では、画像補完を方向性のないシーケンス・トゥ・シーケンス予測タスクとして捉え、エンコーダーにおいてトランスフォーマーを用いて長距離依存関係を直接捉える手法を提案する。重要な点として、重み付きトークン表現に、小さな非重複型の受容 field を持つ制限付き畳み込みネットワーク(CNN)を採用することで、より大きな RF を用いる場合に隣接するトークンが間接的に混同されるリスクを回避しつつ、すべての層で長距離の可視コンテキスト間の関係を等しく重要視して明示的にモデル化することが可能となる。また、可視領域と生成領域の外観の一貫性を向上させるために、遠方の関連する高周波特徴をより効果的に活用できる新しいアテンション意識型レイヤー(AAL: Attention-Aware Layer)を導入している。実験結果から、複数のデータセットにおいて最先端の手法と比較して優れた性能が確認された。