HyperAIHyperAI

Command Palette

Search for a command to run...

Stärkung multimodaler großer Sprachmodelle durch bootstrapped Preference Optimization

Renjie Pi Tianyang Han Wei Xiong Jipeng Zhang Runtao Liu Rui Pan Tong Zhang

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) zeichnen sich durch ihre Fähigkeit aus, auf visuelle Eingaben basierend Antworten zu generieren. Sie leiden jedoch häufig unter einer Bias-Tendenz, Antworten zu produzieren, die der Vortrainingskorpus-Statistik ähneln und somit die Bedeutung visueller Informationen überlagern. Wir betrachten diesen Bias als eine „Präferenz“ für die Vortrainingsstatistiken, die die Verankerung des Modells in visuellen Eingaben beeinträchtigt. Um dieses Problem zu mindern, schlagen wir Bootstrapped Preference Optimization (BPO) vor, eine Methode zur Präferenzlernung, die Datensätze verwendet, die negative Antworten enthalten, die selbst aus dem Modell bootstrapped wurden. Konkret schlagen wir zwei Strategien vor: 1) die Verwendung verformter Bildeingaben für das MLLM, um Antworten hervorzurufen, die einen signifikanten Vortrainingsbias widerspiegeln; 2) die Nutzung eines textbasierten LLM, um absichtlich fehlerhafte, jedoch häufig vorkommende Elemente in die ursprünglichen Antworten einzubinden. Diese unerwünschten Antworten werden mit den ursprünglichen annotierten Antworten aus den Datensätzen gepaart, um ein Präferenzdatenset zu erstellen, das anschließend zur Durchführung der Präferenzlernung genutzt wird. Unser Ansatz unterdrückt effektiv den Bias des vortrainierten LLM und ermöglicht eine verbesserte Verankerung in visuellen Eingaben. Umfangreiche Experimente zeigen signifikante Leistungsverbesserungen über mehrere Benchmarks hinweg und stellen einen Fortschritt im Stand der Technik multimodaler Gesprächesysteme dar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Stärkung multimodaler großer Sprachmodelle durch bootstrapped Preference Optimization | Paper | HyperAI