効率的で再構成可能かつ変分解能な拡散モデリングのためのスタック可能かつスキップ可能な LEGO ブリックの学習

拡散モデル(Diffusion models)は、写真のようにリアルな画像生成において優れた性能を発揮する一方で、学習およびサンプリングの両面で顕著な計算コストを伴う。さまざまな技術がこれらの計算課題に対応しているものの、反復的精緻化に適した効率的かつ柔軟なネットワークバックボーンの設計という、まだ十分に検討されていない問題が存在する。現在の選択肢であるU-NetやVision Transformerは、しばしば高負荷な深層ネットワークに依存しており、変動する解像度での画像生成や、学習時に使用されたネットワークよりも小型な構造での生成に必要な柔軟性を欠いている。本研究では、「LEGOブリック」と呼ばれる新規構成要素を提案する。これらのブリックは、局所特徴の拡張(Local-feature Enrichment)とグローバルコンテンツの統合(Global-content Orchestration)をシームレスに統合しており、試験時における再構成が可能な拡散モデルのバックボーンを構築できる。この設計により、必要なブリックを任意にスキップすることでサンプリングコストを削減し、学習データの解像度よりも高い解像度の画像生成も可能となる。LEGOブリックは、MLPを用いて局所領域を豊かにし、Transformerブロックで変換を行う一方で、すべてのブリックにおいて一貫したフル解像度の画像を維持する。実験結果から、LEGOブリックは学習効率の向上、収束の加速、変動解像度画像生成の実現を可能にするとともに、優れた生成性能を維持することが示された。さらに、他の手法と比較して、サンプリング時間の大幅な短縮が確認され、拡散モデルにおける価値ある強化手段であることが実証された。本研究のコードおよびプロジェクトページは、https://jegzheng.github.io/LEGODiffusion にて公開されている。