Command Palette
Search for a command to run...
Stärkung multimodaler großer Sprachmodelle durch bootstrapped Preference Optimization
Stärkung multimodaler großer Sprachmodelle durch bootstrapped Preference Optimization
Renjie Pi Tianyang Han Wei Xiong Jipeng Zhang Runtao Liu Rui Pan Tong Zhang
Zusammenfassung
Multimodale große Sprachmodelle (MLLMs) zeichnen sich durch ihre Fähigkeit aus, auf visuelle Eingaben basierend Antworten zu generieren. Sie leiden jedoch häufig unter einer Bias-Tendenz, Antworten zu produzieren, die der Vortrainingskorpus-Statistik ähneln und somit die Bedeutung visueller Informationen überlagern. Wir betrachten diesen Bias als eine „Präferenz“ für die Vortrainingsstatistiken, die die Verankerung des Modells in visuellen Eingaben beeinträchtigt. Um dieses Problem zu mindern, schlagen wir Bootstrapped Preference Optimization (BPO) vor, eine Methode zur Präferenzlernung, die Datensätze verwendet, die negative Antworten enthalten, die selbst aus dem Modell bootstrapped wurden. Konkret schlagen wir zwei Strategien vor: 1) die Verwendung verformter Bildeingaben für das MLLM, um Antworten hervorzurufen, die einen signifikanten Vortrainingsbias widerspiegeln; 2) die Nutzung eines textbasierten LLM, um absichtlich fehlerhafte, jedoch häufig vorkommende Elemente in die ursprünglichen Antworten einzubinden. Diese unerwünschten Antworten werden mit den ursprünglichen annotierten Antworten aus den Datensätzen gepaart, um ein Präferenzdatenset zu erstellen, das anschließend zur Durchführung der Präferenzlernung genutzt wird. Unser Ansatz unterdrückt effektiv den Bias des vortrainierten LLM und ermöglicht eine verbesserte Verankerung in visuellen Eingaben. Umfangreiche Experimente zeigen signifikante Leistungsverbesserungen über mehrere Benchmarks hinweg und stellen einen Fortschritt im Stand der Technik multimodaler Gesprächesysteme dar.