vor 16 Tagen

mPLUG-Owl2: Die Revolutionierung multimodaler großer Sprachmodelle durch Modality-Kollaboration

Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Anwen Hu, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou

Abstract

Mehrmodale große Sprachmodelle (MLLMs) haben beeindruckende Fähigkeiten im Umgang mit vielfältigen offenen Aufgaben gezeigt. Bisherige Ansätze konzentrieren sich jedoch hauptsächlich auf die Verbesserung der multimodalen Fähigkeiten. In dieser Arbeit stellen wir ein vielseitiges mehrmodales großes Sprachmodell, mPLUG-Owl2, vor, das die Zusammenarbeit verschiedener Modalitäten effektiv nutzt, um sowohl in rein textbasierten als auch in multimodalen Aufgaben die Leistung zu steigern. mPLUG-Owl2 verwendet einen modularisierten Netzwerkansatz, wobei der Sprachdecoder als universelle Schnittstelle fungiert, um unterschiedliche Modalitäten zu verwalten. Insbesondere integriert mPLUG-Owl2 gemeinsame Funktionsmodule zur Förderung der Modalitätszusammenarbeit und führt ein modality-adaptives Modul ein, das modality-spezifische Merkmale bewahrt. Umfangreiche Experimente zeigen, dass mPLUG-Owl2 sowohl in textbasierten als auch in multimodalen Aufgaben generalisieren kann und mit einem einzigen generischen Modell führende Ergebnisse erzielt. Besonders hervorzuheben ist, dass mPLUG-Owl2 das erste MLLM-Modell ist, das das Phänomen der Modalitätszusammenarbeit sowohl in rein textbasierten als auch in multimodalen Szenarien demonstriert und damit einen wegweisenden Ansatz für die Entwicklung zukünftiger multimodaler Grundmodelle eröffnet.