HyperAIHyperAI

Command Palette

Search for a command to run...

MIA-DPO-Präferenzausrichtungsmethode Zur Verbesserung Mehrerer Bilder

Datum

vor einem Jahr

MIA-DPO (Multi-Image Augmented Direct Preference Optimization) ist eine Methode zur Präferenzausrichtung für die Multi-Image-Augmentation für große visuelle Sprachmodelle (LVLMs). Es wurde 2024 gemeinsam von der Shanghai Jiao Tong University, dem Shanghai Artificial Intelligence Laboratory, der Chinese University of Hong Kong und anderen Institutionen vorgeschlagen. Die zugehörigen Papierergebnisse sind „MIA-DPO: Multi-Image Augmented Direct Preference Optimization für große Vision-Language-Modelle". Der Kern dieser Methode besteht darin, Einzelbilddaten auf Mehrbilddaten zu erweitern und drei Datenformate zu entwerfen: Sequenz, Rastercollage und Bild-in-Bild, wodurch die Kosten für die Datenerfassung und -annotation effektiv gesenkt werden und gleichzeitig eine hohe Skalierbarkeit gewährleistet ist.

Der Schlüssel zu MIA-DPO besteht darin, den Aufmerksamkeitsmechanismus zu nutzen, um abgelehnte Antworten zu identifizieren und zu filtern, auf die sich das Modell möglicherweise fälschlicherweise konzentriert hat. Auf diese Weise können ausgewählte/abgelehnte Paare erstellt werden, ohne auf manuelle Anmerkungen oder zusätzliche Daten angewiesen zu sein. Experimentelle Ergebnisse zeigen, dass MIA-DPO bei 5 Benchmarks mit mehreren Bildern gut abschneidet, mit einer durchschnittlichen Leistungsverbesserung von 3,0% (bei LLaVA-v1.5) und 4,3% (bei InternLM-XC2.5), während die Fähigkeit zum Verstehen einzelner Bilder kaum beeinträchtigt wird.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MIA-DPO-Präferenzausrichtungsmethode Zur Verbesserung Mehrerer Bilder | Wiki | HyperAI