HyperAIHyperAI

Command Palette

Search for a command to run...

Von training-free zu adaptiv: Empirische Erkenntnisse über das Verständnis von MLLMs hinsichtlich Detektionsinformationen

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

Zusammenfassung

Trotz der beeindruckenden Fähigkeiten von Multimodalen Großen Sprachmodellen (MLLMs) bei der Integration von Text- und Bildmodality bestehen weiterhin Herausforderungen bei der genauen Interpretation detaillierter visueller Elemente. Visuelle Erkennungsmodelle erweisen sich als besonders effektiv bei der Erkennung feinabgestimmter Bildinformationen, was Forscher dazu veranlasst hat, diese Modelle zur Verbesserung von MLLMs einzusetzen. Eine wirksame Strategie besteht darin, Erkennungsinformationen in Textform in die MLLMs zu integrieren, was sich als einfach und effektiv erwiesen hat. Allerdings nutzen die meisten Studien diese Methode ohne Training, wodurch das Potenzial adaptiver Trainings weitgehend unerforscht bleibt. Adaptive Trainingsansätze könnten die Fähigkeit von MLLMs erheblich verbessern, einzigartige Eingaben zu verstehen, während gleichzeitig irrelevante Informationen ausgefiltert werden. In dieser Arbeit untersuchen wir die zentrale Frage: Wie beeinflusst Training die Fähigkeit von MLLMs, in Textform integrierte Erkennungsinformationen zu verstehen? Wir führen systematisch Experimente mit verschiedenen repräsentativen Modellen durch, um die Wirkung von trainingsfreien Ansätzen, Neutrainings und Feintunings zu bewerten. Zudem untersuchen wir den Einfluss des Trainings auf die ursprünglichen Fähigkeiten von MLLMs sowie die Austauschbarkeit verschiedener Erkennungsmodelle. Unsere Ergebnisse zeigen, dass das Feintunen eines vortrainierten MLLM zur Integration von textueller Erkennungsinformationen gegenüber trainingsfreien und neu trainierten Ansätzen signifikant bessere Ergebnisse erzielt – die Leistung steigt dabei im Durchschnitt um 6,71 % über 10 weit verbreitete Benchmarks. Darüber hinaus ermöglicht das Feintuning, dass MLLMs die Leistungssteigerung auch dann beibehalten, wenn die zugrundeliegenden Erkennungsmodelle ausgetauscht werden, was auf ein verbessertes Verständnis formatierter Textdaten hindeutet. Wir stellen unseren Quellcode zur Verfügung, um die weitere Erforschung von Fusionsstrategien für visuelle Erkennungsmodelle und die Verbesserung der feinabgestimmten multimodalen Fähigkeiten von MLLMs zu unterstützen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Von training-free zu adaptiv: Empirische Erkenntnisse über das Verständnis von MLLMs hinsichtlich Detektionsinformationen | Paper | HyperAI