Gamifizierte Crowdsourcing-Generierung hochwertiger Daten für die visuelle Feinabstimmung

Diese Arbeit stellt Gamified Adversarial Prompting (GAP) vor, einen Rahmen, der hochwertige Daten für die visuelle Anweisungstuning-Optimierung großer multimodaler Modelle durch eine Crowdsourcing-Strategie bereitstellt. GAP wandelt den Datensammlungsprozess in ein ansprechendes Spiel um und motiviert Spieler, fein granulare, anspruchsvolle Fragen und Antworten bereitzustellen, die gezielt Wissenslücken in Modellen adressieren. Unsere Beiträge umfassen (1) eine Methode zur Erfassung von Frage-Antwort-Paaren durch Menschen, die direkt auf Schwächen im Wissensbestand eines Modells abzielen, (2) ein Verfahren zur Bewertung und Belohnung von Spielern, das effektiv hohe Qualität der Beiträge fördert, sowie (3) eine skalierbare, spielbasierte Plattform, die es ermöglicht, innerhalb weniger Wochen Daten von über 50.000 Teilnehmern zu sammeln. Die Implementierung von GAP hat die Genauigkeit eines kleineren multimodalen Modells, nämlich MiniCPM-Llama3-V-2.5-8B, erheblich verbessert: Der GPT-Score stieg auf unserem Datensatz von 0,147 auf 0,477, was sich dem Benchmark des viel größeren GPT-4V annähert. Darüber hinaus zeigen wir, dass die durch MiniCPM-Llama3-V-2.5-8B generierten Daten auch die Leistung auf anderen Benchmarks verbessern und übermodellhafte Vorteile aufweisen: Derselbe Datensatz steigert die Performance von QWEN2-VL-2B und QWEN2-VL-7B auf mehreren Benchmarks signifikant.