2ヶ月前

MaskGIT: マスク付き生成画像トランスフォーマー

Chang, Huiwen ; Zhang, Han ; Jiang, Lu ; Liu, Ce ; Freeman, William T.
MaskGIT: マスク付き生成画像トランスフォーマー
要約

生成変換モデルは、高忠実度かつ高解像度の画像を合成する技術として、コンピュータビジョン分野で急速に注目を集めています。しかし、現時点での最良の生成変換モデルであっても、画像を単純にトークンの系列として扱い、ラスタースキャン順(つまり、行ごと)に画像を逐次的にデコードしています。私たちはこの戦略が最適でも効率的でもないと考えています。本論文では、双方向変換デコーダを使用した新しい画像合成パラダイムを提案します。これをマスクGIT (MaskGIT) と呼びます。学習時には、マスクGITはすべての方向にあるトークンに注意を払いながら、ランダムにマスキングされたトークンを予測することを学びます。推論時には、モデルはまず画像のすべてのトークンを同時に生成し、その後前回の生成結果に基づいて反復的に画像を洗練していきます。我々の実験結果は、マスクGITがImageNetデータセットにおいて最先端のトランスフォーマー模型よりも著しく優れていることを示しており、最大64倍まで自己回帰デコードを加速することが可能です。さらに、マスクGITがインペイントや外挿(extrapolation)、画像操作などの様々な画像編集タスクに容易に拡張できることも示しています。

MaskGIT: マスク付き生成画像トランスフォーマー | 最新論文 | HyperAI超神経