HyperAIHyperAI
vor 17 Tagen

Volcano: Reduzierung multimodaler Halluzinationen durch selbstgeführte Überarbeitung mittels Selbstfeedback

Seongyun Lee, Sue Hyun Park, Yongrae Jo, Minjoon Seo
Volcano: Reduzierung multimodaler Halluzinationen durch selbstgeführte Überarbeitung mittels Selbstfeedback
Abstract

Große multimodale Modelle leiden unter multimodaler Halluzination, bei der sie falsche Antworten liefern, die nicht mit der gegebenen visuellen Information übereinstimmen. Neuere Arbeiten vermuten, dass einer der Gründe für multimodale Halluzination darin liegt, dass der Bildencoder die visuelle Information nicht angemessen verankert („grounding“). Um dieses Problem zu mildern, schlagen wir einen neuartigen Ansatz vor, der selbstgesteuerte Rückmeldung als visuelle Hinweise nutzt. Aufbauend auf diesem Ansatz führen wir Volcano ein, ein multimodales, durch Selbstfeedback gesteuertes Überarbeitungsmodell. Volcano generiert auf Basis der bereitgestellten visuellen Informationen natürliche Sprachrückmeldungen zu seiner ursprünglichen Antwort und nutzt diese Rückmeldungen, um ihre ursprüngliche Antwort selbst zu überarbeiten. Volcano reduziert die multimodale Halluzination effektiv und erreicht den Stand der Technik auf den Benchmarks MMHal-Bench, POPE und GAVIE. Zudem verbessert es allgemeine multimodale Fähigkeiten und übertrifft frühere Modelle auf MM-Vet und MMBench. Durch qualitative Analysen zeigen wir, dass die Rückmeldungen von Volcano besser auf dem Bild verankert sind als die ursprüngliche Antwort. Dies deutet darauf hin, dass Volcano sich durch die Generierung von Rückmeldungen selbst reichhaltigere visuelle Informationen verschafft, was zu einer selbstkorrigierenden Korrektur von Halluzinationen führt. Wir stellen unser Modell, die Daten und den Code öffentlich unter https://github.com/kaistAI/Volcano zur Verfügung.