vor 6 Monaten

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben in letzter Zeit erhebliche Fortschritte erzielt. Dennoch bestehen weiterhin Herausforderungen hinsichtlich der präzisen Erkennung und Verständnis komplexer Details in hochauflösenden Bildern. Obwohl diese Fähigkeit für die Entwicklung robuster MLLMs unverzichtbar ist, bleibt dieser Bereich bisher unterforscht. Um dieser Herausforderung zu begegnen, stellen wir InfiMM-HD vor – eine neuartige Architektur, die speziell für die Verarbeitung von Bildern unterschiedlicher Auflösungen mit geringem Rechenaufwand konzipiert wurde. Diese Innovation ermöglicht es, MLLMs effizient auf höhere Auflösungskapazitäten auszudehnen. InfiMM-HD integriert ein Cross-Attention-Modul sowie visuelle Fenster, um die Berechnungskosten zu reduzieren. Durch die Kombination dieser architektonischen Lösung mit einem vierstufigen Trainingspipeline erreicht unser Modell eine verbesserte visuelle Wahrnehmung effizient und kostengünstig. Empirische Studien belegen die Robustheit und Effektivität von InfiMM-HD und eröffnen neue Forschungsperspektiven in diesem Bereich. Der Quellcode und die Modelle sind unter https://huggingface.co/Infi-MM/infimm-hd verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodale Darstellung

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodale Darstellung

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

InfiMM-HD: Ein Sprung vorwärts bei der hochauflösenden multimodalen Wahrnehmung

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

InfiMM-HD: Ein Sprung vorwärts bei der hochauflösenden multimodalen Wahrnehmung

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

InfiMM-HD: Ein Sprung vorwärts bei der hochauflösenden multimodalen Wahrnehmung

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters