HyperAIHyperAI

Command Palette

Search for a command to run...

InfiMM-HD: Ein Sprung vorwärts bei der hochauflösenden multimodalen Wahrnehmung

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben in letzter Zeit erhebliche Fortschritte erzielt. Dennoch bestehen weiterhin Herausforderungen hinsichtlich der präzisen Erkennung und Verständnis komplexer Details in hochauflösenden Bildern. Obwohl diese Fähigkeit für die Entwicklung robuster MLLMs unverzichtbar ist, bleibt dieser Bereich bisher unterforscht. Um dieser Herausforderung zu begegnen, stellen wir InfiMM-HD vor – eine neuartige Architektur, die speziell für die Verarbeitung von Bildern unterschiedlicher Auflösungen mit geringem Rechenaufwand konzipiert wurde. Diese Innovation ermöglicht es, MLLMs effizient auf höhere Auflösungskapazitäten auszudehnen. InfiMM-HD integriert ein Cross-Attention-Modul sowie visuelle Fenster, um die Berechnungskosten zu reduzieren. Durch die Kombination dieser architektonischen Lösung mit einem vierstufigen Trainingspipeline erreicht unser Modell eine verbesserte visuelle Wahrnehmung effizient und kostengünstig. Empirische Studien belegen die Robustheit und Effektivität von InfiMM-HD und eröffnen neue Forschungsperspektiven in diesem Bereich. Der Quellcode und die Modelle sind unter https://huggingface.co/Infi-MM/infimm-hd verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
InfiMM-HD: Ein Sprung vorwärts bei der hochauflösenden multimodalen Wahrnehmung | Paper | HyperAI