HyperAIHyperAI

Command Palette

Search for a command to run...

vor 9 Tagen

WEAVE: Freisetzen und Benchmarken des kontextuellen abwechselnden Verständnisses und Generierens

WEAVE: Freisetzen und Benchmarken des kontextuellen abwechselnden Verständnisses und Generierens

Abstract

Neuere Fortschritte in einheitlichen multimodalen Modellen (UMMs) haben beeindruckende Fortschritte in der visuellen Wahrnehmung und -generierung ermöglicht. Allerdings konzentrieren sich bestehende Datensätze und Benchmarks primär auf Einzelschritt-Interaktionen und erfassen nicht die mehrschrittige, kontextabhängige Natur der realen Bilderzeugung und -bearbeitung. Um diese Lücke zu schließen, präsentieren wir WEAVE, die erste Suite für kontextbasierte, abwechselnde, multimodale Wahrnehmung und Generierung. Unsere Suite besteht aus zwei ergänzenden Komponenten. WEAVE-100k ist ein großskaliger Datensatz mit 100.000 abwechselnden Beispielen, der über 370.000 Dialogrunden und 500.000 Bilder umfasst und Aufgaben zur Wahrnehmung, Bearbeitung und Generierung abdeckt, die eine Schlussfolgerung aus historischem Kontext erfordern. WEAVEBench ist ein menschlich annotiertes Benchmark mit 100 Aufgaben basierend auf 480 Bildern, das einen hybriden VLM-Beurteilungsrahmen einsetzt, der sowohl das Referenzbild als auch die Kombination aus ursprünglichem Bild und Bearbeitungsinstruktionen berücksichtigt, um die Fähigkeiten von Modellen in mehrschrittiger Generierung, visueller Erinnerung und Weltwissen-Reasoning über verschiedene Domänen hinweg zu bewerten. Experimente zeigen, dass die Trainingsauf WEAVE-100k die Fähigkeiten zur visuellen Wahrnehmung, Bildbearbeitung und kooperativen Wahrnehmung-Generierung ermöglicht. Darüber hinaus fördert es die Entwicklung emergenter visueller Gedächtnisfähigkeiten bei UMMs, während umfangreiche Bewertungen auf WEAVEBench die anhaltenden Einschränkungen und Herausforderungen aktueller Ansätze in der mehrschrittigen, kontextbewussten Bildgenerierung und -bearbeitung aufzeigt. Wir sind überzeugt, dass WEAVE einen wichtigen Blickwinkel und eine solide Grundlage für die Erforschung kontextbasierter, abwechselnder Wahrnehmung und Generierung im multimodalen Gemeinschaftsrahmen bietet.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
WEAVE: Freisetzen und Benchmarken des kontextuellen abwechselnden Verständnisses und Generierens | Forschungsarbeiten | HyperAI