Echo-4o:GPT-4oによる合成画像の力を活用した画像生成の向上

最近、GPT-4oは画像生成において優れた性能を発揮していることから注目を集めているが、オープンソースモデルは依然としてその性能に追いついていない。いくつかの研究では、GPT-4oから生成された画像データを抽出・蒸留することで、オープンソースモデルの性能を向上させる試みが行われ、顕著な進展が得られている。しかし、重要な問いが残っている。現実世界の画像データセットはすでに高品質なデータの自然な供給源を備えているにもかかわらず、なぜGPT-4oによって生成された合成画像データを用いる必要があるのか?本研究では、合成画像の2つの重要な利点を明らかにする。第一に、実世界のデータセットに存在しない稀なシナリオ(たとえば、超現実的なファンタジー画像や複数の参照画像を用いた生成)を補完できること。このようなシナリオはユーザーのクエリにおいて頻繁に出現する。第二に、クリーンで制御可能な教師信号を提供できることである。実世界のデータには複雑な背景ノイズや、テキスト記述と画像内容との間に内在する不整合が含まれるが、合成画像は純粋な背景と長尾型の教師信号を提供するため、テキストから画像への正確な対応付けを促進する。これらの知見を基に、我々はGPT-4oによって生成された18万件規模の合成データセット「Echo-4o-Image」を提案する。この合成画像データの力を活かし、現実世界のデータカバレッジにおける盲点を補完する。このデータセットを用いて、統合型マルチモーダル生成ベースライン「Bagel」を微調整し、「Echo-4o」を構築した。さらに、画像生成能力をより正確かつ厳密に評価するための2つの新規評価ベンチマークを提案する。一つは、指示の複雑性を高めることでスコアの飽和現象を緩和する「GenEval++」であり、もう一つは、想像的コンテンツの理解と生成の両面を評価することを目的とする「Imagine-Bench」である。Echo-4oは標準ベンチマークにおいて強力な性能を示した。さらに、Echo-4o-Imageを他の基礎モデル(例:OmniGen2、BLIP3-o)に適用することで、複数の評価指標において一貫した性能向上が得られ、本データセットの高い転移性を示している。