InfiMM-HD: Ein Sprung vorwärts bei der hochauflösenden multimodalen Wahrnehmung

Multimodale große Sprachmodelle (MLLMs) haben in letzter Zeit erhebliche Fortschritte erzielt. Dennoch bestehen weiterhin Herausforderungen hinsichtlich der präzisen Erkennung und Verständnis komplexer Details in hochauflösenden Bildern. Obwohl diese Fähigkeit für die Entwicklung robuster MLLMs unverzichtbar ist, bleibt dieser Bereich bisher unterforscht. Um dieser Herausforderung zu begegnen, stellen wir InfiMM-HD vor – eine neuartige Architektur, die speziell für die Verarbeitung von Bildern unterschiedlicher Auflösungen mit geringem Rechenaufwand konzipiert wurde. Diese Innovation ermöglicht es, MLLMs effizient auf höhere Auflösungskapazitäten auszudehnen. InfiMM-HD integriert ein Cross-Attention-Modul sowie visuelle Fenster, um die Berechnungskosten zu reduzieren. Durch die Kombination dieser architektonischen Lösung mit einem vierstufigen Trainingspipeline erreicht unser Modell eine verbesserte visuelle Wahrnehmung effizient und kostengünstig. Empirische Studien belegen die Robustheit und Effektivität von InfiMM-HD und eröffnen neue Forschungsperspektiven in diesem Bereich. Der Quellcode und die Modelle sind unter https://huggingface.co/Infi-MM/infimm-hd verfügbar.