HyperAIHyperAI
vor 10 Tagen

Echo-4o: Die Kraft synthetischer Bilder basierend auf GPT-4o zur Verbesserung der Bildgenerierung nutzen

Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, et al
Echo-4o: Die Kraft synthetischer Bilder basierend auf GPT-4o zur Verbesserung der Bildgenerierung nutzen
Abstract

Kürzlich hat GPT-4o aufgrund seiner herausragenden Leistung im Bereich der Bildgenerierung erhebliche Aufmerksamkeit erlangt, während offene Quellmodelle weiterhin hinterherhinken. Mehrere Studien haben untersucht, wie Bilddaten aus GPT-4o zur Verbesserung offener Quellmodelle durch Kompilierung (Distillation) genutzt werden können, wodurch beachtliche Fortschritte erzielt wurden. Dennoch bleibt eine zentrale Frage offen: Angesichts der Tatsache, dass reale Bild-Datensätze bereits eine natürliche Quelle hochwertiger Daten darstellen, warum sollten wir synthetische Daten, die von GPT-4o generiert wurden, verwenden? In dieser Arbeit identifizieren wir zwei wesentliche Vorteile synthetischer Bilder. Erstens können sie seltene Szenarien in realen Datensätzen ergänzen, wie beispielsweise surreale Fantasiebilder oder mehrfach referenzierte Bildgenerierung, die häufig in Benutzeranfragen auftreten. Zweitens bieten sie saubere und kontrollierbare Aufsichtsdaten. Reale Daten enthalten oft komplexe Hintergrundstörungen und inhärente Diskrepanzen zwischen Textbeschreibungen und Bildinhalten, während synthetische Bilder reine Hintergründe und langgezogene (long-tailed) Aufsichtssignale liefern, was eine präzisere Text-zu-Bild-Alignment ermöglicht. Aufbauend auf diesen Erkenntnissen stellen wir Echo-4o-Image vor – einen synthetischen Datensatz mit einer Skalierung von 180.000 Bildern, der von GPT-4o generiert wurde, und nutzen die Stärken synthetischer Bilddaten, um Lücken in der Abdeckung realer Daten zu schließen. Mit diesem Datensatz fine-tunen wir die universelle multimodale Generations-Basislinie Bagel und erhalten so Echo-4o. Zudem schlagen wir zwei neue Evaluationsbenchmarks vor, um die Fähigkeiten der Bildgenerierung präziser und anspruchsvoller zu bewerten: GenEval++, das die Komplexität der Anweisungen erhöht, um die Score-Sättigung zu verringern, und Imagine-Bench, der sich speziell auf die Beurteilung sowohl des Verständnisses als auch der Generierung fantasievoller Inhalte konzentriert. Echo-4o zeigt starke Leistungen auf etablierten Benchmark-Tests. Darüber hinaus führt die Anwendung von Echo-4o-Image auf andere Grundmodelle (z. B. OmniGen2, BLIP3-o) zu konsistenten Leistungsverbesserungen über mehrere Metriken hinweg, was die hohe Übertragbarkeit des Datensatzes unterstreicht.