概要

近年の画像生成モデルは、写実性、タイポグラフィ、指示の遵循、対話的編集において大きな進歩を遂げたものの、依然として空間推論、状態の持続性、長期一貫性、因果理解の分野では課題を抱えている。本研究グループは、本分野は外見の合成にとどまらず、構造、ダイナミクス、ドメイン知識、因果関係に裏打ちされた妥当なビジュアルに基づく、知的な画像生成へと移行すべきだと主張する。このパラダイムシフトを位置づけるため、受け動的なレンダリングから、対話的で自律的、世界認識型ジェネレーターへと進化する5段階の分類体系を提案する。各レベルは、原子生成、条件付き生成、文脈内生成、エージェント生成、ワールドモデルリング生成からなる。さらに、フローマッチング、理解と生成を統一したモデル、改善されたビジュアル表現、学習後最適化（ポストトレーニング）、報酬モデル、データのキュレーション、合成データからの蒸留、およびサンプリングの高速化といった、主要な技術的要因を分析する。また、現在の評価基準は知覚的品質を重視しすぎており、構造的、時間的、因果的な欠陥を見落としているため、進歩を過大評価していることが多いことを示す。ベンチマークのレビュー、実世界でのストレステスト、および専門家が制約を与えたケーススタディを組み合わせることで、本ロードマップは、次世代の知的画像生成システムを理解し、評価し、進化させるための能力中心の視点を提供する。

ソースPDF