vor 10 Monaten

Qiang Zhou Zhibin Wang Wei Chu Yinghui Xu Hao Li Yuan Qi

Zusammenfassung

Große Sprachmodelle (LLMs) haben ihre bemerkenswerte Vielseitigkeit bei der Bewältigung einer breiten Palette sprachzentrierter Anwendungen unter Beweis gestellt. Um die Fähigkeiten von LLMs auf ein weiteres Spektrum an Eingabemodalitäten auszuweiten, haben multimodale große Sprachmodelle (MLLMs) zunehmendes Interesse geweckt. In dieser Arbeit untersuchen wir die Erweiterung der Fähigkeiten von LLMs, um komplexere visionssprachliche Aufgaben zu bewältigen, insbesondere Bildbeschreibung (Image Captioning), visuelle Fragebeantwortung (Visual Question Answering, VQA) und visuelle Grundlegung (Visual Grounding). Dazu implementieren wir ein dreistufiges Trainingsverfahren: Beginnend mit einer leichtgewichtigen Alignierungsvortrainierung, gefolgt von einer mittelschweren Multitask-Hybridtrainingsphase und abschließend einer Feinabstimmung des LLMs zur Verbesserung der Befehlsfolgefähigkeit. Während des gesamten Trainingsprozesses steigt der Speicherverbrauch auf der GPU schrittweise an. Um die Anzahl der visuellen Embeddings, die an das LLM übergeben werden, effektiv zu steuern, während gleichzeitig deren räumliche Positionsinformationen erhalten bleiben, führen wir ein einfaches visuelles Adaptermodul ein, das als Pool-Adapter bezeichnet wird. Unsere Experimente zeigen, dass die Erhaltung der räumlichen Positionsinformationen der visuellen Embeddings durch den Pool-Adapter besonders vorteilhaft für Aufgaben wie die visuelle Grundlegung ist. Wir bezeichnen unseren vorgeschlagenen Ansatz als InfMLLM und haben ihn umfassend auf verschiedenen Benchmark-Datensätzen evaluiert. Unsere Ergebnisse belegen, dass InfMLLM entweder eine state-of-the-art (SOTA)-Leistung erreicht oder eine Leistung erzielt, die mit jüngeren MLLMs vergleichbar ist. Der Quellcode und das Modell werden unter \url{https://github.com/mightyzau/InfMLLM} öffentlich zugänglich gemacht.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 10 Monaten

Visuelle Fragebeantwortung

Bildbeschreibung

Multi-Task-Lernen

Qiang Zhou Zhibin Wang Wei Chu Yinghui Xu Hao Li Yuan Qi

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 10 Monaten

Visuelle Fragebeantwortung

Bildbeschreibung

Multi-Task-Lernen

Qiang Zhou Zhibin Wang Wei Chu Yinghui Xu Hao Li Yuan Qi

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

InfMLLM: Ein einheitlicher Rahmen für visuell-sprachliche Aufgaben

Qiang Zhou Zhibin Wang Wei Chu Yinghui Xu Hao Li Yuan Qi

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

InfMLLM: Ein einheitlicher Rahmen für visuell-sprachliche Aufgaben

Qiang Zhou Zhibin Wang Wei Chu Yinghui Xu Hao Li Yuan Qi

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

InfMLLM: Ein einheitlicher Rahmen für visuell-sprachliche Aufgaben

Qiang Zhou Zhibin Wang Wei Chu Yinghui Xu Hao Li Yuan Qi

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters