vor 3 Monaten

Wei Chow Jiachun Pan Yongyuan Liang Mingze Zhou Xue Song Liyu Jia Saining Zhang Siliang Tang Juncheng Li Fengda Zhang

Zusammenfassung

Neuere Fortschritte in einheitlichen multimodalen Modellen (UMMs) haben beeindruckende Fortschritte in der visuellen Wahrnehmung und -generierung ermöglicht. Allerdings konzentrieren sich bestehende Datensätze und Benchmarks primär auf Einzelschritt-Interaktionen und erfassen nicht die mehrschrittige, kontextabhängige Natur der realen Bilderzeugung und -bearbeitung. Um diese Lücke zu schließen, präsentieren wir WEAVE, die erste Suite für kontextbasierte, abwechselnde, multimodale Wahrnehmung und Generierung. Unsere Suite besteht aus zwei ergänzenden Komponenten. WEAVE-100k ist ein großskaliger Datensatz mit 100.000 abwechselnden Beispielen, der über 370.000 Dialogrunden und 500.000 Bilder umfasst und Aufgaben zur Wahrnehmung, Bearbeitung und Generierung abdeckt, die eine Schlussfolgerung aus historischem Kontext erfordern. WEAVEBench ist ein menschlich annotiertes Benchmark mit 100 Aufgaben basierend auf 480 Bildern, das einen hybriden VLM-Beurteilungsrahmen einsetzt, der sowohl das Referenzbild als auch die Kombination aus ursprünglichem Bild und Bearbeitungsinstruktionen berücksichtigt, um die Fähigkeiten von Modellen in mehrschrittiger Generierung, visueller Erinnerung und Weltwissen-Reasoning über verschiedene Domänen hinweg zu bewerten. Experimente zeigen, dass die Trainingsauf WEAVE-100k die Fähigkeiten zur visuellen Wahrnehmung, Bildbearbeitung und kooperativen Wahrnehmung-Generierung ermöglicht. Darüber hinaus fördert es die Entwicklung emergenter visueller Gedächtnisfähigkeiten bei UMMs, während umfangreiche Bewertungen auf WEAVEBench die anhaltenden Einschränkungen und Herausforderungen aktueller Ansätze in der mehrschrittigen, kontextbewussten Bildgenerierung und -bearbeitung aufzeigt. Wir sind überzeugt, dass WEAVE einen wichtigen Blickwinkel und eine solide Grundlage für die Erforschung kontextbasierter, abwechselnder Wahrnehmung und Generierung im multimodalen Gemeinschaftsrahmen bietet.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Wei Chow Jiachun Pan Yongyuan Liang Mingze Zhou Xue Song Liyu Jia Saining Zhang Siliang Tang Juncheng Li Fengda Zhang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Wei Chow Jiachun Pan Yongyuan Liang Mingze Zhou Xue Song Liyu Jia Saining Zhang Siliang Tang Juncheng Li Fengda Zhang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

WEAVE: Freisetzen und Benchmarken des kontextuellen abwechselnden Verständnisses und Generierens | Paper | HyperAI

Command Palette

WEAVE: Freisetzen und Benchmarken des kontextuellen abwechselnden Verständnisses und Generierens

Wei Chow Jiachun Pan Yongyuan Liang Mingze Zhou Xue Song Liyu Jia Saining Zhang Siliang Tang Juncheng Li Fengda Zhang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

WEAVE: Freisetzen und Benchmarken des kontextuellen abwechselnden Verständnisses und Generierens

Wei Chow Jiachun Pan Yongyuan Liang Mingze Zhou Xue Song Liyu Jia Saining Zhang Siliang Tang Juncheng Li Fengda Zhang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

WEAVE: Freisetzen und Benchmarken des kontextuellen abwechselnden Verständnisses und Generierens

Wei Chow Jiachun Pan Yongyuan Liang Mingze Zhou Xue Song Liyu Jia Saining Zhang Siliang Tang Juncheng Li Fengda Zhang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Wei Chow Jiachun Pan Yongyuan Liang Mingze Zhou Xue Song Liyu Jia Saining Zhang Siliang Tang Juncheng Li Fengda Zhang

Wei Chow Jiachun Pan Yongyuan Liang Mingze Zhou Xue Song Liyu Jia Saining Zhang Siliang Tang Juncheng Li Fengda Zhang

Wei Chow Jiachun Pan Yongyuan Liang Mingze Zhou Xue Song Liyu Jia Saining Zhang Siliang Tang Juncheng Li Fengda Zhang