HyperAIHyperAI

Command Palette

Search for a command to run...

RLHF-V: Hin zum vertrauenswürdigen MLLM durch Verhaltensausrichtung aus feinkörnigen korrektiven menschlichen Rückmeldungen

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben in letzter Zeit beeindruckende Fähigkeiten im Bereich multimodaler Verständnis, Schlussfolgerung und Interaktion demonstriert. Allerdings leiden bestehende MLLMs häufig erheblich unter Halluzinationsproblemen, wodurch sie Texte generieren, die nicht faktisch auf den zugehörigen Bildern basieren. Dies macht bestehende MLLMs unzuverlässig und somit praktisch ungeeignet für realweltliche Anwendungen – insbesondere solche mit hohen Konsequenzen. Um dieses Problem anzugehen, stellen wir RLHF-V vor, ein Ansatz, der die Vertrauenswürdigkeit von MLLMs durch eine feinabgestimmte Verhaltensausrichtung mittels korrektiver menschlicher Rückmeldung verbessert. Konkret sammelt RLHF-V menschliche Präferenzen in Form von segmentweisen Korrekturen an Halluzinationen und führt eine dichte direkte Präferenzoptimierung basierend auf dieser menschlichen Rückmeldung durch. Umfassende Experimente an fünf Benchmarks, sowohl in automatisierten als auch in menschlichen Bewertungen, zeigen, dass RLHF-V MLLMs erheblich vertrauenswürdigere Verhaltensweisen ermöglicht und dabei versprechende Effizienz in Bezug auf Daten- und Rechenressourcen aufweist. Besonders bemerkenswert ist, dass RLHF-V mithilfe von lediglich 1.400 annotierten Datensätzen die Halluzinationsrate des Basis-MLLM um 34,8 % reduziert – und damit die Leistung des gleichzeitigen LLaVA-RLHF übertrifft, das auf 10.000 annotierten Daten trainiert wurde. Das endgültige Modell erreicht eine state-of-the-art-Leistung in Bezug auf Vertrauenswürdigkeit unter Open-Source-MLLMs und zeigt gegenüber GPT-4V eine bessere Robustheit bei der Verhinderung von Halluzinationen, die durch Übergeneralisierung hervorgerufen werden. Wir stellen unseren Code, das Modell und die Daten unter https://github.com/RLHF-V/RLHF-V öffentlich zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp