4日前
ローカリティを意識した並列デコーディングによる効率的な自己回帰画像生成
Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han

要約
我々は、自己回帰画像生成を加速するための局所性意識並列デコーディング(Locality-aware Parallel Decoding, LPD)を提案します。従来の自己回帰画像生成は、次のパッチ予測に依存しており、これはメモリに制約されるプロセスで高遅延につながります。既存の研究では、このプロセスを加速するために次パッチ予測をマルチパッチ予測にシフトすることで並列化を試みていますが、限られた並列化しか達成できていません。高い並列化を実現しつつ生成品質を維持するため、以下の2つの主要技術を導入しました:1. 柔軟な並列化自己回帰モデリング(Flexible Parallelized Autoregressive Modeling)。これは任意の生成順序と並列化度を可能にする新しいアーキテクチャです。学習可能な位置クエリトークンを使用して、目標位置での生成をガイドしながら、同時に生成されるトークン間の相互可視性を確保し、一貫した並列デコーディングを行うことができます。2. 局所性意識生成順序(Locality-aware Generation Ordering)。これはグループ内での依存関係を最小限に抑えつつコンテキスト支援を最大化する新しいスケジューリング手法です。これにより生成品質が向上します。これらの設計により、ImageNetクラス条件付き生成において品質を損なうことなく、256×256解像度の場合には生成ステップ数が256から20に、512×512解像度の場合には1024から48に削減されました。さらに、以前の並列化された自己回帰モデルと比較して少なくとも3.4倍低い遅延時間を達成しています。