FLUX.2がDiffusersに登場、新アーキテクチャで画像生成の次世代へ
Black Forest Labsが開発した新世代画像生成モデル「FLUX.2」が、Diffusersによって正式にサポートされた。FLUX.1の後継として、完全に新しいアーキテクチャとスクラッチからの事前学習を採用しており、単一のテキストエンコーダー「Mistral Small 3.1」を採用。これによりプロンプト埋め込みの処理が簡素化され、最大512トークンの入力長をサポート。DiT(Diffusion Transformer)は、双ストリームとシングルストリームのブロックを組み合わせたMM-DiT+並列構造を採用。FLUX.1と比較して、時間・ガイダンス情報のモジュレーションパラメータが全ブロックで共有され、すべての層でバイアスパラメータが削除された。また、シングルストリームブロックの割合が大幅に増加(32B版で73%)し、処理効率が向上。特に、アテンションのQKVとFFの入力投影を統合する「完全並列ブロック」の採用により、計算効率とスケーラビリティが強化された。 FLUX.2は、最大10枚の画像を参照入力として受け取り、テキストと画像の両方で制御可能な画像生成が可能。複数の画像を自然言語で参照(例:「image 1のカピバラ」)できるため、複雑なコンセプトの生成が可能。推論には通常80GB以上のVRAMが必要だが、Diffusersを活用することで、4ビット量子化やCPUオフロード、リモートテキストエンコーダーの活用、グループオフロードなどにより、24GB、18GB、さらには8GBのGPUでも利用可能。特に、Hopper世代GPUではFlash Attention 3を活用することで推論速度が向上。 さらに、LoRAによる微調整も可能。FP8学習やQLoRA(4ビット量子化)を組み合わせ、メモリ消費を大幅に削減。たとえば、1920×1024解像度のタロットカード生成データセットを用いた微調整では、FP8学習とリモートテキストエンコーダー、キャッシュされた潜在変数を活用することで、消費メモリを最小限に抑えながら学習が実現。結果として、事前学習モデルとLoRA微調整後のモデルの差が明確に現れ、特定のスタイルやテーマに特化した高品質な出力が可能。 FLUX.2は、AI画像生成の次世代モデルとして、高精度と柔軟性を両立。専門的なリソースがなくても、効率的な最適化手法を活用することで、広範な開発者層にアクセス可能。
