Command Palette
Search for a command to run...
InfMLLM: Ein einheitlicher Rahmen für visuell-sprachliche Aufgaben
InfMLLM: Ein einheitlicher Rahmen für visuell-sprachliche Aufgaben
Qiang Zhou Zhibin Wang Wei Chu Yinghui Xu Hao Li Yuan Qi
Zusammenfassung
Große Sprachmodelle (LLMs) haben ihre bemerkenswerte Vielseitigkeit bei der Bewältigung einer breiten Palette sprachzentrierter Anwendungen unter Beweis gestellt. Um die Fähigkeiten von LLMs auf ein weiteres Spektrum an Eingabemodalitäten auszuweiten, haben multimodale große Sprachmodelle (MLLMs) zunehmendes Interesse geweckt. In dieser Arbeit untersuchen wir die Erweiterung der Fähigkeiten von LLMs, um komplexere visionssprachliche Aufgaben zu bewältigen, insbesondere Bildbeschreibung (Image Captioning), visuelle Fragebeantwortung (Visual Question Answering, VQA) und visuelle Grundlegung (Visual Grounding). Dazu implementieren wir ein dreistufiges Trainingsverfahren: Beginnend mit einer leichtgewichtigen Alignierungsvortrainierung, gefolgt von einer mittelschweren Multitask-Hybridtrainingsphase und abschließend einer Feinabstimmung des LLMs zur Verbesserung der Befehlsfolgefähigkeit. Während des gesamten Trainingsprozesses steigt der Speicherverbrauch auf der GPU schrittweise an. Um die Anzahl der visuellen Embeddings, die an das LLM übergeben werden, effektiv zu steuern, während gleichzeitig deren räumliche Positionsinformationen erhalten bleiben, führen wir ein einfaches visuelles Adaptermodul ein, das als Pool-Adapter bezeichnet wird. Unsere Experimente zeigen, dass die Erhaltung der räumlichen Positionsinformationen der visuellen Embeddings durch den Pool-Adapter besonders vorteilhaft für Aufgaben wie die visuelle Grundlegung ist. Wir bezeichnen unseren vorgeschlagenen Ansatz als InfMLLM und haben ihn umfassend auf verschiedenen Benchmark-Datensätzen evaluiert. Unsere Ergebnisse belegen, dass InfMLLM entweder eine state-of-the-art (SOTA)-Leistung erreicht oder eine Leistung erzielt, die mit jüngeren MLLMs vergleichbar ist. Der Quellcode und das Modell werden unter \url{https://github.com/mightyzau/InfMLLM} öffentlich zugänglich gemacht.