HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

BaseReward: Eine starke Baseline für multimodale Belohnungsmodelle

BaseReward: Eine starke Baseline für multimodale Belohnungsmodelle

Abstract

Die rasante Entwicklung multimodaler großer Sprachmodelle (Multimodal Large Language Models, MLLMs) hat die Ausrichtung dieser Modelle an menschlichen Präferenzen zu einer zentralen Herausforderung gemacht. Belohnungsmodelle (Reward Models, RMs) stellen eine Schlüsseltechnologie zur Erreichung dieses Ziels dar, doch sowohl in der akademischen Forschung als auch in der Industrie fehlt derzeit ein systematischer Leitfaden für die Entwicklung von State-of-the-Art-Multimodal-Reward-Modellen (MRMs). Durch umfassende experimentelle Analysen zielt diese Arbeit darauf ab, eine klare „Rezeptur“ für die Konstruktion leistungsstarker MRMs bereitzustellen. Wir untersuchen systematisch jedes entscheidende Element im Entwicklungsprozess von MRMs, darunter Belohnungsmodellierungsparadigmen (z. B. Naive-RM, Kritik-basiertes RM und Generatives RM), die Architektur des Belohnungskopfes, Trainingsstrategien, Datenaufbereitung (einschließlich über zehn multimodaler und textbasierter Präferenzdatensätze), die zugrundeliegende Modellarchitektur und Modellgröße sowie Ensembles-Methoden.Auf Basis dieser experimentellen Erkenntnisse stellen wir BaseReward vor – einen leistungsfähigen und effizienten Baseline für die multimodale Belohnungsmodellierung. BaseReward nutzt eine einfache, jedoch wirksame Architektur auf Basis eines {Qwen2.5-VL}-Backbones, verfügt über einen optimierten zweischichtigen Belohnungskopf und wird auf einer sorgfältig zusammengestellten Mischung hochwertiger multimodaler und textbasierter Präferenzdaten trainiert. Unsere Ergebnisse zeigen, dass BaseReward neue SOTA-Werte auf bedeutenden Benchmarks wie MM-RLHF-Reward Bench, VL-Reward Bench und Multimodal Reward Bench erreicht und damit frühere Modelle übertrifft. Darüber hinaus validieren wir die praktische Relevanz von BaseReward über statische Benchmarks hinaus, indem wir es in eine reale Reinforcement-Learning-Pipeline integrieren und erfolgreich die Leistung eines MLLM in verschiedenen Aufgabenbereichen – einschließlich Wahrnehmung, Schlussfolgerung und Gesprächstätigkeiten – verbessern. Diese Arbeit liefert nicht nur ein erstklassiges MRM, sondern vermittelt vor allem der Forschungsgemeinschaft eine klare, empirisch fundierte Anleitung zur Entwicklung robuster Belohnungsmodelle für die nächste Generation von MLLMs.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BaseReward: Eine starke Baseline für multimodale Belohnungsmodelle | Forschungsarbeiten | HyperAI