HyperAIHyperAI

Command Palette

Search for a command to run...

InfMLLM: Ein einheitlicher Rahmen für visuell-sprachliche Aufgaben

Qiang Zhou Zhibin Wang Wei Chu Yinghui Xu Hao Li Yuan Qi

Zusammenfassung

Große Sprachmodelle (LLMs) haben ihre bemerkenswerte Vielseitigkeit bei der Bewältigung einer breiten Palette sprachzentrierter Anwendungen unter Beweis gestellt. Um die Fähigkeiten von LLMs auf ein weiteres Spektrum an Eingabemodalitäten auszuweiten, haben multimodale große Sprachmodelle (MLLMs) zunehmendes Interesse geweckt. In dieser Arbeit untersuchen wir die Erweiterung der Fähigkeiten von LLMs, um komplexere visionssprachliche Aufgaben zu bewältigen, insbesondere Bildbeschreibung (Image Captioning), visuelle Fragebeantwortung (Visual Question Answering, VQA) und visuelle Grundlegung (Visual Grounding). Dazu implementieren wir ein dreistufiges Trainingsverfahren: Beginnend mit einer leichtgewichtigen Alignierungsvortrainierung, gefolgt von einer mittelschweren Multitask-Hybridtrainingsphase und abschließend einer Feinabstimmung des LLMs zur Verbesserung der Befehlsfolgefähigkeit. Während des gesamten Trainingsprozesses steigt der Speicherverbrauch auf der GPU schrittweise an. Um die Anzahl der visuellen Embeddings, die an das LLM übergeben werden, effektiv zu steuern, während gleichzeitig deren räumliche Positionsinformationen erhalten bleiben, führen wir ein einfaches visuelles Adaptermodul ein, das als Pool-Adapter bezeichnet wird. Unsere Experimente zeigen, dass die Erhaltung der räumlichen Positionsinformationen der visuellen Embeddings durch den Pool-Adapter besonders vorteilhaft für Aufgaben wie die visuelle Grundlegung ist. Wir bezeichnen unseren vorgeschlagenen Ansatz als InfMLLM und haben ihn umfassend auf verschiedenen Benchmark-Datensätzen evaluiert. Unsere Ergebnisse belegen, dass InfMLLM entweder eine state-of-the-art (SOTA)-Leistung erreicht oder eine Leistung erzielt, die mit jüngeren MLLMs vergleichbar ist. Der Quellcode und das Modell werden unter \url{https://github.com/mightyzau/InfMLLM} öffentlich zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp