Silkie: Preference Distillation für große visuelle Sprachmodelle

Diese Arbeit untersucht die Präferenz-Distillation für große Vision-Sprache-Modelle (LVLMs), um deren Fähigkeit zur Generierung hilfreicher und treuer Antworten im Kontext visueller Informationen zu verbessern. Zunächst erstellen wir eine Vision-Sprache-Feedback-(VLFeedback)-Datenbank mittels künstlicher Intelligenz zur Annotation. Insbesondere werden Antworten von Modellen generiert, die aus 12 LVLMs zufällig ausgewählt wurden und auf multimodale Anweisungen basieren, die aus verschiedenen Datensätzen stammen. Wir nutzen GPT-4V, um die generierten Ausgaben hinsichtlich Nutzen, visueller Treue und ethischer Aspekte zu bewerten. Darüber hinaus wird die Präferenz-Supervision mittels der Direkten Präferenz-Optimierung (DPO) in das Qwen-VL-Chat-Modell distilliert. Das resultierende Modell Silkie erreicht eine relative Verbesserung von 6,9 % und 9,5 % auf der MME-Benchmark hinsichtlich der Wahrnehmungs- und Kognitionsfähigkeit, jeweils. Silkie zeigt zudem eine reduzierte Halluzination und erzielt mit einer neuen SOTA-Performance von 3,02 auf der MMHal-Bench-Benchmark. Weitere Analysen zeigen, dass DPO in Kombination mit unserer VLFeedback-Datenbank vor allem die feinkörnige Wahrnehmung und komplexe Kognitionsfähigkeiten von LVLMs stärkt, was zu umfassenderen Verbesserungen führt als bei Modellen, die auf menschlich annotierten Präferenzdatensätzen trainiert wurden.