WEAVE: Freisetzen und Benchmarken des kontextuellen abwechselnden Verständnisses und Generierens

Abstract
Neuere Fortschritte in einheitlichen multimodalen Modellen (UMMs) haben beeindruckende Fortschritte in der visuellen Wahrnehmung und -generierung ermöglicht. Allerdings konzentrieren sich bestehende Datensätze und Benchmarks primär auf Einzelschritt-Interaktionen und erfassen nicht die mehrschrittige, kontextabhängige Natur der realen Bilderzeugung und -bearbeitung. Um diese Lücke zu schließen, präsentieren wir WEAVE, die erste Suite für kontextbasierte, abwechselnde, multimodale Wahrnehmung und Generierung. Unsere Suite besteht aus zwei ergänzenden Komponenten. WEAVE-100k ist ein großskaliger Datensatz mit 100.000 abwechselnden Beispielen, der über 370.000 Dialogrunden und 500.000 Bilder umfasst und Aufgaben zur Wahrnehmung, Bearbeitung und Generierung abdeckt, die eine Schlussfolgerung aus historischem Kontext erfordern. WEAVEBench ist ein menschlich annotiertes Benchmark mit 100 Aufgaben basierend auf 480 Bildern, das einen hybriden VLM-Beurteilungsrahmen einsetzt, der sowohl das Referenzbild als auch die Kombination aus ursprünglichem Bild und Bearbeitungsinstruktionen berücksichtigt, um die Fähigkeiten von Modellen in mehrschrittiger Generierung, visueller Erinnerung und Weltwissen-Reasoning über verschiedene Domänen hinweg zu bewerten. Experimente zeigen, dass die Trainingsauf WEAVE-100k die Fähigkeiten zur visuellen Wahrnehmung, Bildbearbeitung und kooperativen Wahrnehmung-Generierung ermöglicht. Darüber hinaus fördert es die Entwicklung emergenter visueller Gedächtnisfähigkeiten bei UMMs, während umfangreiche Bewertungen auf WEAVEBench die anhaltenden Einschränkungen und Herausforderungen aktueller Ansätze in der mehrschrittigen, kontextbewussten Bildgenerierung und -bearbeitung aufzeigt. Wir sind überzeugt, dass WEAVE einen wichtigen Blickwinkel und eine solide Grundlage für die Erforschung kontextbasierter, abwechselnder Wahrnehmung und Generierung im multimodalen Gemeinschaftsrahmen bietet.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.