Command Palette
Search for a command to run...

要約
テキストから画像を生成するモデルは、当初の遊び心ある創造ツールから、画質と現実性の面で前例のない水準に達するプロフェッショナル向けのシステムへと急速に進化した。しかし、大多数のモデルは短いプロンプトを詳細な画像にマッピングするように学習されており、入力テキストの簡素さと出力画像の豊かさの間に大きなギャップが生じている。この不一致は、モデルが欠落する詳細を任意に補完する傾向を生み出し、平均的なユーザーの好みに偏りがちになるため、制御性が低下し、プロフェッショナル用途における精密さを制限する。本研究では、長文かつ構造化されたキャプションを用いて学習する、世界初のオープンソーステキストから画像生成モデルの開発に成功した。各学習サンプルは、同一の細粒度属性セットで注釈付けされており、この設計により表現力のカバー範囲を最大化し、視覚的要因の分離制御を可能にした。長文キャプションの効率的処理のため、軽量な大規模言語モデル(LLM)から得られる中間トークンを、トークン長を増加させることなく統合する「DimFusion」という統合メカニズムを提案する。また、テキストをボトルネックとして用いた再構成評価(Text-as-a-Bottleneck Reconstruction, TaBR)という新しい評価プロトコルを導入した。この方法は、実画像をキャプション生成のループを通じてどれだけ正確に再構成できるかを評価することで、従来の評価手法が限界に達するような極めて長いキャプションに対しても、制御性と表現力の度合いを直接測定可能となる。最後に、本研究の貢献を実証する形で、大規模モデル「FIBO」を構築し、オープンソースモデルの中でも最良のプロンプト整合性を達成した。モデルの重みは、https://huggingface.co/briaai/FIBO にて公開されている。