Command Palette
Search for a command to run...
Von training-free zu adaptiv: Empirische Erkenntnisse über das Verständnis von MLLMs hinsichtlich Detektionsinformationen
Von training-free zu adaptiv: Empirische Erkenntnisse über das Verständnis von MLLMs hinsichtlich Detektionsinformationen
Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen
Zusammenfassung
Trotz der beeindruckenden Fähigkeiten von Multimodalen Großen Sprachmodellen (MLLMs) bei der Integration von Text- und Bildmodality bestehen weiterhin Herausforderungen bei der genauen Interpretation detaillierter visueller Elemente. Visuelle Erkennungsmodelle erweisen sich als besonders effektiv bei der Erkennung feinabgestimmter Bildinformationen, was Forscher dazu veranlasst hat, diese Modelle zur Verbesserung von MLLMs einzusetzen. Eine wirksame Strategie besteht darin, Erkennungsinformationen in Textform in die MLLMs zu integrieren, was sich als einfach und effektiv erwiesen hat. Allerdings nutzen die meisten Studien diese Methode ohne Training, wodurch das Potenzial adaptiver Trainings weitgehend unerforscht bleibt. Adaptive Trainingsansätze könnten die Fähigkeit von MLLMs erheblich verbessern, einzigartige Eingaben zu verstehen, während gleichzeitig irrelevante Informationen ausgefiltert werden. In dieser Arbeit untersuchen wir die zentrale Frage: Wie beeinflusst Training die Fähigkeit von MLLMs, in Textform integrierte Erkennungsinformationen zu verstehen? Wir führen systematisch Experimente mit verschiedenen repräsentativen Modellen durch, um die Wirkung von trainingsfreien Ansätzen, Neutrainings und Feintunings zu bewerten. Zudem untersuchen wir den Einfluss des Trainings auf die ursprünglichen Fähigkeiten von MLLMs sowie die Austauschbarkeit verschiedener Erkennungsmodelle. Unsere Ergebnisse zeigen, dass das Feintunen eines vortrainierten MLLM zur Integration von textueller Erkennungsinformationen gegenüber trainingsfreien und neu trainierten Ansätzen signifikant bessere Ergebnisse erzielt – die Leistung steigt dabei im Durchschnitt um 6,71 % über 10 weit verbreitete Benchmarks. Darüber hinaus ermöglicht das Feintuning, dass MLLMs die Leistungssteigerung auch dann beibehalten, wenn die zugrundeliegenden Erkennungsmodelle ausgetauscht werden, was auf ein verbessertes Verständnis formatierter Textdaten hindeutet. Wir stellen unseren Quellcode zur Verfügung, um die weitere Erforschung von Fusionsstrategien für visuelle Erkennungsmodelle und die Verbesserung der feinabgestimmten multimodalen Fähigkeiten von MLLMs zu unterstützen.