Steuern großer multimodaler Modelle für Videos mittels Reinforcement Learning auf Basis von KI-Feedback

Neuere Fortschritte in großen Sprachmodellen haben die Entwicklung von großen multimodalen Videomodellen (VLMMs) beeinflusst. Die bisherigen Ansätze für VLMMs umfassten das überwachte Feinjustieren (SFT) mit anweisungsbasierten Datensätzen, die Integration von LLMs mit visuellen Encodern und das Hinzufügen zusätzlicher lernfähiger Module. Die multimodale Ausrichtung von Video und Text bleibt jedoch herausfordernd, hauptsächlich aufgrund des mangelnden Umfangs und der geringeren Qualität multimodaler Anweisungsdaten im Vergleich zu rein textbasierten Daten. Wir präsentieren eine neuartige Ausrichtungsstrategie, die ein multimodales KI-System zur Selbstüberwachung verwendet, bekannt als Verstärkungslernen durch KI-Rückmeldung (RLAIF). Diese Strategie liefert selbstgenerierte Präferenzrückmeldungen, um sich selbst zu verfeinern und erleichtert die Ausrichtung der Video- und Textmodalitäten. Insbesondere schlagen wir ein kontextbewusstes Reward-Modell vor, indem wir detaillierte Videobeschreibungen als Kontext während der Erstellung der Präferenzrückmeldungen bereitstellen, um das Verständnis des Videoinhalts zu vertiefen. Unsere multimodale RLAIF-Methode, VLM-RLAIF, zeigt verbesserte Leistungen bei verschiedenen Videobenchmarks und übertrifft bestehende Ansätze, einschließlich des SFT-Modells. Wir sind verpflichtet, unseren Code, Modelle und Datensätze offen zu stellen, um weitere Forschung in diesem Bereich zu fördern.