HyperAIHyperAI

Command Palette

Search for a command to run...

MaskGIT: マスク付き生成画像トランスフォーマー

Huiwen Chang Han Zhang Lu Jiang Ce Liu* William T. Freeman

概要

生成変換モデルは、高忠実度かつ高解像度の画像を合成する技術として、コンピュータビジョン分野で急速に注目を集めています。しかし、現時点での最良の生成変換モデルであっても、画像を単純にトークンの系列として扱い、ラスタースキャン順(つまり、行ごと)に画像を逐次的にデコードしています。私たちはこの戦略が最適でも効率的でもないと考えています。本論文では、双方向変換デコーダを使用した新しい画像合成パラダイムを提案します。これをマスクGIT (MaskGIT) と呼びます。学習時には、マスクGITはすべての方向にあるトークンに注意を払いながら、ランダムにマスキングされたトークンを予測することを学びます。推論時には、モデルはまず画像のすべてのトークンを同時に生成し、その後前回の生成結果に基づいて反復的に画像を洗練していきます。我々の実験結果は、マスクGITがImageNetデータセットにおいて最先端のトランスフォーマー模型よりも著しく優れていることを示しており、最大64倍まで自己回帰デコードを加速することが可能です。さらに、マスクGITがインペイントや外挿(extrapolation)、画像操作などの様々な画像編集タスクに容易に拡張できることも示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています