2ヶ月前

Transformersにおける情報損失の低減を目的とした多様的な画像補完

Qiankun Liu; Zhentao Tan; Dongdong Chen; Qi Chu; Xiyang Dai; Yinpeng Chen; Mengchen Liu; Lu Yuan; Nenghai Yu
Transformersにおける情報損失の低減を目的とした多様的な画像補完
要約

トランスフォーマーは最近、多様な画像補完において大きな成功を収めています。しかし、既存のトランスフォーマーに基づく解決策では各ピクセルをトークンとして扱っているため、情報損失の問題が二つの側面から生じています。1) 効率性の観点から入力画像を大幅に低い解像度にダウンサンプリングするため、マスクされた領域の境界における情報損失と追加のずれが発生します。2) $256^3$ RGB ピクセルを少量(例えば 512)の量子化ピクセルに変換します。量子化ピクセルのインデックスがトランスフォーマーの入力と予測目標として使用されますが、追加の CNN ネットワークを使用して低解像度結果をアップサンプリングおよび精製しても、失われた情報を完全に復元することは困難です。入力情報をできるだけ多く保持するために、私たちは新しいトランスフォーマーベースのフレームワーク「PUT」を提案します。具体的には、入力ダウンサンプリングを避けて計算効率を維持するため、パッチベースの自己符号化器 P-VQVAE を設計しました。エンコーダーはマスクされた画像を非重複パッチトークンに変換し、デコーダーはインペイントされたトークンからマスクされた領域を復元しながら、マスクされていない領域はそのまま保持します。量子化による情報損失を排除するために、Un-Quantized Transformer (UQ-Transformer) を適用しました。これは P-VQVAE エンコーダーからの特徴量を直接入力として受け取り、量子化を行わず、量子化トークンのみを予測目標として扱います。広範囲な実験により、PUT は特に大規模なマスク領域や複雑な大規模データセットにおいて画像忠実度で最先端手法よりも大幅に優れていることが示されました。コードは https://github.com/liuqk3/PUT で利用可能です。

Transformersにおける情報損失の低減を目的とした多様的な画像補完 | 最新論文 | HyperAI超神経