17日前

GMem：超効率的生成モデルにおけるモジュラーベースアプローチ

Yi Tang, Peng Sun, Zhenglin Cheng, Tao Lin

要約

最近の研究では、深層生成拡散モデルにおけるノイズ除去プロセスが、データ分布から意味的情報を暗黙的に学習および記憶していることが示されている。これらの知見は、より複雑なデータ分布を捉えるためにはより大きなニューラルネットワークが必要となることを示唆しており、その結果、学習および推論における計算要求が著しく増大し、これが拡散モデルの主要なボトルネックとなっている。このような状況に応じて、本研究では「GMem（Generative Memory）」——超効率的生成モデルのためのモジュール型アプローチ——を提案する。GMemは、モデルの記憶容量をモデル自体から分離し、データに含まれる本質的な意味的情報を保持する独立した不変メモリセットとして実装する。その効果は顕著であり、学習およびサンプリングの効率性、多様性の生成性能が向上する。この設計により、複雑なデータ分布を記憶するためのネットワークへの依存度が低下し、結果として学習および推論の両面で効率性が向上する。ImageNet（256×256解像度）における実験では、GMemはSiTと比較して学習速度が50倍高速化され、28エポック（約4時間）でFID = 7.66を達成する一方、SiTは1400エポックを要する。分類器フリー・ガイドアンスを用いない状況下でも、GMemは160エポックでFID = 1.53という最先端（SoTA）の性能を達成し、約20時間の学習で実現している。これに対し、LightningDiTは800エポック、約95時間の学習を要し、FID = 2.17に留まっていることから、GMemの優位性が明確に示された。