HyperAIHyperAI
vor 11 Tagen

mPLUG-Owl: Modularisierung ermöglicht großen Sprachmodellen Multimodalität

Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, Chenliang Li, Yuanhong Xu, Hehong Chen, Junfeng Tian, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
mPLUG-Owl: Modularisierung ermöglicht großen Sprachmodellen Multimodalität
Abstract

Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten im Zero-Shot-Modus bei einer Vielzahl offener Aufgaben demonstriert, während jüngste Forschungsarbeiten auch die Nutzung von LLMs für multimodale Generierung untersucht haben. In dieser Studie stellen wir mPLUG-Owl vor, ein neuartiges Trainingsparadigma, das LLMs durch modularisierte Lernprozesse – bestehend aus einem Grund-LLM, einem visuellen Wissensmodul und einem visuellen Abstraktionsmodul – multimodale Fähigkeiten verleiht. Dieser Ansatz ermöglicht die Unterstützung mehrerer Modalitäten und fördert durch Modality-Kollaboration vielfältige ein- und multimodale Fähigkeiten. Das Trainingsparadigma von mPLUG-Owl basiert auf einem zweistufigen Verfahren zur Alignierung von Bild und Text, bei dem visuelles Wissen mit Hilfe des LLMs erlernt wird, ohne die Generierungsfähigkeiten des LLMs zu beeinträchtigen – im Gegenteil, diese werden sogar verbessert. Im ersten Stadium werden das visuelle Wissensmodul und das Abstraktionsmodul mit einem fixierten LLM-Modul trainiert, um Bild- und Textinformationen zu alignieren. Im zweiten Stadium werden Sprach-dominante sowie multimodale überwachte Datensätze verwendet, um gemeinsam ein Low-Rank-Adaption-Modul (LoRA) sowohl am LLM als auch am Abstraktionsmodul zu feinjustieren, wobei das visuelle Wissensmodul fixiert bleibt. Wir haben sorgfältig eine visuell orientierte Evaluationsdatenbank namens OwlEval aufgebaut. Experimentelle Ergebnisse zeigen, dass unser Modell bestehende multimodale Modelle übertrifft und die beeindruckenden Fähigkeiten von mPLUG-Owl in Bezug auf Anweisungsverstehen, visuelles Verständnis, mehrfach gestaffelte Gespräche sowie Wissensschlussfolgerung unter Beweis stellt. Darüber hinaus beobachten wir unerwartete und aufregende Fähigkeiten wie die Korrelation mehrerer Bilder und die Verarbeitung von Szenentext, was die Anwendung in anspruchsvolleren realen Szenarien ermöglicht, beispielsweise bei der reine Bild-basierten Dokumentenverstehens. Unsere Quellcode, vortrainiertes Modell, instruktions-optimierte Modelle sowie die Evaluationsdatenbank sind unter https://github.com/X-PLUG/mPLUG-Owl verfügbar. Eine Online-Demo ist über https://www.modelscope.cn/studios/damo/mPLUG-Owl zugänglich.

mPLUG-Owl: Modularisierung ermöglicht großen Sprachmodellen Multimodalität | Neueste Forschungsarbeiten | HyperAI