RLAIF-V: Open-Source KI-Feedback führt zu einer überlegenen Vertrauenswürdigkeit im Vergleich zu GPT-4V

Traditionelle Feedback-Lernansätze zur Reduktion von Halluzinationen basieren auf aufwendigen manuellen Beschriftungen oder kostspieligen proprietären Modellen. Dadurch fehlt der Forschungsgemeinschaft grundlegendes Wissen darüber, wie hochwertiges Feedback mit Open-Source-MLLMs (Multimodal Large Language Models) erstellt werden kann. In dieser Arbeit präsentieren wir RLAIF-V, einen neuartigen Framework, der MLLMs in einer vollständig offenen-Quellcode-Paradigma ausrichtet. RLAIF-V erschließt offene-Quellcode-MLLMs maximal aus zwei Perspektiven: einerseits die Generierung hochwertiger Feedback-Daten für das Preference-Learning und andererseits die Selbst-Feedback-Steuerung zur Skalierung im Inferenzzeitpunkt. Umfangreiche Experimente auf sechs Benchmarks, sowohl in automatisierten als auch in menschlichen Bewertungen, zeigen, dass RLAIF-V die Vertrauenswürdigkeit der Modelle sowohl im Preference-Learning als auch im Inferenzzeitpunkt erheblich verbessert. RLAIF-V 7B reduziert die Objekt-Halluzination um 80,7 % und die Gesamthalluzination um 33,7 %. Bemerkenswerterweise offenbart RLAIF-V 12B das Potenzial der Selbst-Ausrichtung offener-Quellcode-MLLMs, bei dem das Modell aus seinem eigenen Feedback lernen kann, um eine Vertrauenswürdigkeit zu erreichen, die sogar die von GPT-4V übertrifft.