MIA-DPO-Präferenzausrichtungsmethode Zur Verbesserung Mehrerer Bilder
MIA-DPO (Multi-Image Augmented Direct Preference Optimization) ist eine Methode zur Präferenzausrichtung für die Multi-Image-Augmentation für große visuelle Sprachmodelle (LVLMs). Es wurde 2024 gemeinsam von der Shanghai Jiao Tong University, dem Shanghai Artificial Intelligence Laboratory, der Chinese University of Hong Kong und anderen Institutionen vorgeschlagen. Die zugehörigen Papierergebnisse sind „MIA-DPO: Multi-Image Augmented Direct Preference Optimization für große Vision-Language-Modelle". Der Kern dieser Methode besteht darin, Einzelbilddaten auf Mehrbilddaten zu erweitern und drei Datenformate zu entwerfen: Sequenz, Rastercollage und Bild-in-Bild, wodurch die Kosten für die Datenerfassung und -annotation effektiv gesenkt werden und gleichzeitig eine hohe Skalierbarkeit gewährleistet ist.
Der Schlüssel zu MIA-DPO besteht darin, den Aufmerksamkeitsmechanismus zu nutzen, um abgelehnte Antworten zu identifizieren und zu filtern, auf die sich das Modell möglicherweise fälschlicherweise konzentriert hat. Auf diese Weise können ausgewählte/abgelehnte Paare erstellt werden, ohne auf manuelle Anmerkungen oder zusätzliche Daten angewiesen zu sein. Experimentelle Ergebnisse zeigen, dass MIA-DPO bei 5 Benchmarks mit mehreren Bildern gut abschneidet, mit einer durchschnittlichen Leistungsverbesserung von 3,0% (bei LLaVA-v1.5) und 4,3% (bei InternLM-XC2.5), während die Fähigkeit zum Verstehen einzelner Bilder kaum beeinträchtigt wird.