合成データを用いた自己改善型拡散モデル

人工知能(AI)分野では、ますます大型化する生成モデルの学習に必要な実データが枯渇しつつあり、合成データへの依存が急速に高まっている。しかし、現在または過去の世代のモデルから生成された合成データを用いて新たな生成モデルを学習させると、自己消費的な(autophagous)循環が生じ、合成データの品質および多様性が低下するという問題が発生する。この現象は「モデル自己食症(Model Autophagy Disorder: MAD)」や「モデル崩壊」と呼ばれており、現在の主流の見解では、MADに陥るリスクを避けるため、合成データをモデル学習に用いるべきでないとされている。本論文では、この常識に反して、合成データを実データとは異なる扱い方をするアプローチを提案する。本研究で提唱する「自己改善型拡散モデルによる合成データ利用法(Self-IMproving diffusion models with Synthetic data: SIMS)」は、拡散モデルの学習手法としての新概念であり、自己生成された合成データを「負のガイダンス」として活用することで、生成プロセス中に非理想的な合成データの多様体(manifold)からモデルの生成方向を逸らし、実データの分布へと導くことを可能にする。我々は、SIMSが自己改善能力を有することを実証した。CIFAR-10およびImageNet-64の生成において、Fréchet inception distance(FID)という評価指標で新たな記録を樹立し、FFHQ-64およびImageNet-512においても競争力ある性能を達成した。さらに、本研究の知見によれば、SIMSは、自己生成された合成データを反復的に用いた学習が可能でありながらMADに陥らない、現時点で知られている最初の予防的(prophylactic)生成AIアルゴリズムである。付加的な利点として、SIMSは拡散モデルが生成する合成データの分布を、任意の所望のドメイン内ターゲット分布に調整可能であり、バイアスの低減や公平性の確保に貢献することができる。