HyperAIHyperAI
vor 11 Tagen

RLAIF-V: Open-Source KI-Feedback führt zu einer überlegenen Vertrauenswürdigkeit im Vergleich zu GPT-4V

Tianyu Yu, Haoye Zhang, Qiming Li, Qixin Xu, Yuan Yao, Da Chen, Xiaoman Lu, Ganqu Cui, Yunkai Dang, Taiwen He, Xiaocheng Feng, Jun Song, Bo Zheng, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun
RLAIF-V: Open-Source KI-Feedback führt zu einer überlegenen Vertrauenswürdigkeit im Vergleich zu GPT-4V
Abstract

Traditionelle Feedback-Lernansätze zur Reduktion von Halluzinationen basieren auf aufwendigen manuellen Beschriftungen oder kostspieligen proprietären Modellen. Dadurch fehlt der Forschungsgemeinschaft grundlegendes Wissen darüber, wie hochwertiges Feedback mit Open-Source-MLLMs (Multimodal Large Language Models) erstellt werden kann. In dieser Arbeit präsentieren wir RLAIF-V, einen neuartigen Framework, der MLLMs in einer vollständig offenen-Quellcode-Paradigma ausrichtet. RLAIF-V erschließt offene-Quellcode-MLLMs maximal aus zwei Perspektiven: einerseits die Generierung hochwertiger Feedback-Daten für das Preference-Learning und andererseits die Selbst-Feedback-Steuerung zur Skalierung im Inferenzzeitpunkt. Umfangreiche Experimente auf sechs Benchmarks, sowohl in automatisierten als auch in menschlichen Bewertungen, zeigen, dass RLAIF-V die Vertrauenswürdigkeit der Modelle sowohl im Preference-Learning als auch im Inferenzzeitpunkt erheblich verbessert. RLAIF-V 7B reduziert die Objekt-Halluzination um 80,7 % und die Gesamthalluzination um 33,7 %. Bemerkenswerterweise offenbart RLAIF-V 12B das Potenzial der Selbst-Ausrichtung offener-Quellcode-MLLMs, bei dem das Modell aus seinem eigenen Feedback lernen kann, um eine Vertrauenswürdigkeit zu erreichen, die sogar die von GPT-4V übertrifft.

RLAIF-V: Open-Source KI-Feedback führt zu einer überlegenen Vertrauenswürdigkeit im Vergleich zu GPT-4V | Neueste Forschungsarbeiten | HyperAI