
要約
自然なデータは冗長である一方で、現在の主流アーキテクチャは入力空間および出力空間全体に均一に計算を配置している。本研究では、アテンションベースのアーキテクチャである再帰的インターフェースネットワーク(Recurrent Interface Networks; RINs)を提案する。RINsは、核心的な計算をデータの次元性から分離することで、高次元データのスケーラブルな生成に適応した計算を可能にする。RINsは、主な計算(すなわちグローバル自己アテンション)を潜在トークンの集合に集中させ、クロスアテンションを用いて潜在トークンとデータトークン間の情報の読み書き(すなわちルーティング)を行う。RINブロックをスタックすることで、下向き(データ→潜在)および上向き(潜在→データ)のフィードバックが可能となり、より深く、より表現力豊かなルーティングが実現される。このルーティングは課題を伴うが、反復的な生成(たとえば拡散モデルを用いた生成)など、タスク(およびルーティング問題)が徐々に変化する再帰的計算環境では、その影響は相対的に小さい。本研究では、逆拡散プロセスの各前向きパスにおいて、直前の計算から得られた潜在トークンを条件として用いることで、再帰性を活用する手法、すなわち潜在自己条件付け(latent self-conditioning)を提示する。実験により、RINsは、カスケードやガイダンスを用いずに1024×1024の画像までスケーリング可能な最先端のピクセルベース拡散モデルとして、画像および動画生成において優れた性能を発揮する。また、ドメインに依存せず、2Dおよび3DのU-Netと比較して最大10倍の計算効率を達成している。