RLHF-V: Hin zum vertrauenswürdigen MLLM durch Verhaltensausrichtung aus feinkörnigen korrektiven menschlichen Rückmeldungen

Multimodale große Sprachmodelle (MLLMs) haben in letzter Zeit beeindruckende Fähigkeiten im Bereich multimodaler Verständnis, Schlussfolgerung und Interaktion demonstriert. Allerdings leiden bestehende MLLMs häufig erheblich unter Halluzinationsproblemen, wodurch sie Texte generieren, die nicht faktisch auf den zugehörigen Bildern basieren. Dies macht bestehende MLLMs unzuverlässig und somit praktisch ungeeignet für realweltliche Anwendungen – insbesondere solche mit hohen Konsequenzen. Um dieses Problem anzugehen, stellen wir RLHF-V vor, ein Ansatz, der die Vertrauenswürdigkeit von MLLMs durch eine feinabgestimmte Verhaltensausrichtung mittels korrektiver menschlicher Rückmeldung verbessert. Konkret sammelt RLHF-V menschliche Präferenzen in Form von segmentweisen Korrekturen an Halluzinationen und führt eine dichte direkte Präferenzoptimierung basierend auf dieser menschlichen Rückmeldung durch. Umfassende Experimente an fünf Benchmarks, sowohl in automatisierten als auch in menschlichen Bewertungen, zeigen, dass RLHF-V MLLMs erheblich vertrauenswürdigere Verhaltensweisen ermöglicht und dabei versprechende Effizienz in Bezug auf Daten- und Rechenressourcen aufweist. Besonders bemerkenswert ist, dass RLHF-V mithilfe von lediglich 1.400 annotierten Datensätzen die Halluzinationsrate des Basis-MLLM um 34,8 % reduziert – und damit die Leistung des gleichzeitigen LLaVA-RLHF übertrifft, das auf 10.000 annotierten Daten trainiert wurde. Das endgültige Modell erreicht eine state-of-the-art-Leistung in Bezug auf Vertrauenswürdigkeit unter Open-Source-MLLMs und zeigt gegenüber GPT-4V eine bessere Robustheit bei der Verhinderung von Halluzinationen, die durch Übergeneralisierung hervorgerufen werden. Wir stellen unseren Code, das Modell und die Daten unter https://github.com/RLHF-V/RLHF-V öffentlich zur Verfügung.