Steigerung der Kognition und Erklärbarkeit multimodaler Grundmodellen mit selbstsynthetisierten Daten

Große multimodale Modelle (LMMs) haben beeindruckende Fähigkeiten in einer Vielzahl visueller Aufgaben gezeigt. Sie leiden jedoch häufig unter Schwierigkeiten bei feinabgestimmtem visuellem Schlussfolgern, indem sie dominanzspezifische Ziele nicht erkennen und ihre Vorhersagen nicht hinreichend begründen können. Um dieses Problem anzugehen, schlagen wir einen neuartigen visuellen Ablehnungs-Sampling-Ansatz vor, um die Kognition und Erklärbarkeit von LMMs mithilfe selbstgenerierter Daten zu verbessern. Konkret erfordert das visuelle Feintuning Bilder, Fragen und Zielantworten. Unser Ansatz beginnt mit der Synthese interpretierbarer Antworten, die menschlich überprüfbare visuelle Merkmale enthalten. Diese Merkmale basieren auf von Experten definierten Konzepten, die sorgfältig ausgewählt wurden, um eine hohe Übereinstimmung mit dem Bildinhalt sicherzustellen. Nach jeder Runde des Feintunings wenden wir eine belohnungsmodellfreie Filtermechanik an, um die qualitativ hochwertigsten interpretierbaren Antworten für die nächste Runde des Feintunings auszuwählen. Dieser iterative Prozess aus Datensynthese und Feintuning verbessert schrittweise die Fähigkeit des Modells, genaue und plausibel begründete Erklärungen zu generieren. Experimentelle Ergebnisse belegen die Wirksamkeit unseres Ansatzes bei der Verbesserung sowohl der Genauigkeit als auch der Erklärbarkeit spezialisierter visueller Klassifizierungsaufgaben.