Minderung von Halluzinationen in großen multimodalen Modellen durch robuster Anweisungstuning

Trotz der vielversprechenden Fortschritte in multimodalen Aufgaben sind aktuelle große multimodale Modelle (LMMs) anfällig für Halluzinationen, bei denen die beschreibenden Ausgaben mit dem zugehörigen Bild oder den menschlichen Anweisungen inkonsistent sind. In dieser Arbeit adressieren wir dieses Problem durch die Einführung des ersten großen und vielfältigen Datensatzes für visuelle Anweisungstuning, benannt als Large-scale Robust Visual (LRV)-Instruction. Unser Datensatz umfasst 400.000 visuelle Anweisungen, die von GPT4 generiert wurden, und deckt 16 Aufgaben aus dem Bereich Vision-and-Language mit offenen Anweisungen und Antworten ab. Im Gegensatz zu bisherigen Studien, die sich hauptsächlich auf positive Anweisungsbeispiele konzentrieren, gestalten wir LRV-Instruction so, dass sowohl positive als auch negative Anweisungen enthalten sind, um ein robusteres visuelles Anweisungstuning zu ermöglichen. Unsere negativen Anweisungen werden auf drei semantischen Ebenen entworfen: (i) Nichtexistierende Objektmanipulation, (ii) Bestehende Objektmanipulation und (iii) Wissensmanipulation. Um die durch LMMs erzeugten Halluzinationen effizient zu messen, schlagen wir GPT4-assistierte Visual Instruction Evaluation (GAVIE) vor, eine stabile Methode zur Bewertung des visuellen Anweisungstunings, die sich an menschliche Experten anlehnt. GAVIE erfordert keine menschlich annotierten Referenzantworten und kann sich an unterschiedliche Anweisungsformate anpassen. Wir führen umfassende Experimente durch, um die Halluzinationen von LMMs zu untersuchen. Unsere Ergebnisse zeigen, dass bestehende LMMs bei der Verarbeitung unserer negativen Anweisungen erhebliche Halluzinationen aufweisen, insbesondere bei Anweisungen zur bestehenden Objektmanipulation und Wissensmanipulation. Darüber hinaus gelingt es uns, die Halluzinationen erfolgreich zu reduzieren, indem wir MiniGPT4 und mPLUG-Owl auf LRV-Instruction fine-tunen, wobei gleichzeitig die Leistung auf mehreren öffentlichen Datensätzen gegenüber state-of-the-art-Methoden verbessert wird. Zudem beobachten wir, dass ein ausgewogener Anteil an positiven und negativen Instanzen im Trainingsdatensatz zu einem robusteren Modell führt. Der Quellcode und die Daten sind unter https://github.com/FuxiaoLiu/LRV-Instruction verfügbar.