HyperAIHyperAI

Command Palette

Search for a command to run...

Steuern großer multimodaler Modelle für Videos mittels Reinforcement Learning auf Basis von KI-Feedback

Daechul Ahn Yura Choi Youngjae Yu Dongyeop Kang Jonghyun Choi

Zusammenfassung

Neuere Fortschritte in großen Sprachmodellen haben die Entwicklung von großen multimodalen Videomodellen (VLMMs) beeinflusst. Die bisherigen Ansätze für VLMMs umfassten das überwachte Feinjustieren (SFT) mit anweisungsbasierten Datensätzen, die Integration von LLMs mit visuellen Encodern und das Hinzufügen zusätzlicher lernfähiger Module. Die multimodale Ausrichtung von Video und Text bleibt jedoch herausfordernd, hauptsächlich aufgrund des mangelnden Umfangs und der geringeren Qualität multimodaler Anweisungsdaten im Vergleich zu rein textbasierten Daten. Wir präsentieren eine neuartige Ausrichtungsstrategie, die ein multimodales KI-System zur Selbstüberwachung verwendet, bekannt als Verstärkungslernen durch KI-Rückmeldung (RLAIF). Diese Strategie liefert selbstgenerierte Präferenzrückmeldungen, um sich selbst zu verfeinern und erleichtert die Ausrichtung der Video- und Textmodalitäten. Insbesondere schlagen wir ein kontextbewusstes Reward-Modell vor, indem wir detaillierte Videobeschreibungen als Kontext während der Erstellung der Präferenzrückmeldungen bereitstellen, um das Verständnis des Videoinhalts zu vertiefen. Unsere multimodale RLAIF-Methode, VLM-RLAIF, zeigt verbesserte Leistungen bei verschiedenen Videobenchmarks und übertrifft bestehende Ansätze, einschließlich des SFT-Modells. Wir sind verpflichtet, unseren Code, Modelle und Datensätze offen zu stellen, um weitere Forschung in diesem Bereich zu fördern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Steuern großer multimodaler Modelle für Videos mittels Reinforcement Learning auf Basis von KI-Feedback | Paper | HyperAI