HyperAIHyperAI
vor 7 Tagen

mPLUG-Owl3: Hin zu einem Verständnis langer Bildsequenzen in multimodalen großen Sprachmodellen

Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
mPLUG-Owl3: Hin zu einem Verständnis langer Bildsequenzen in multimodalen großen Sprachmodellen
Abstract

Mehrmodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fähigkeiten bei der Ausführung von Anweisungen für eine Vielzahl einzelbildbasierter Aufgaben gezeigt. Trotz dieser Fortschritte bestehen weiterhin erhebliche Herausforderungen bei der Modellierung langer Bildsequenzen. In dieser Arbeit stellen wir das vielseitige mehrmodale große Sprachmodell mPLUG-Owl3 vor, das die Fähigkeit zur Verarbeitung langer Bildsequenzen in Szenarien verbessert, die abgerufene Bild-Text-Kenntnisse, abwechselnde Bild-Text-Strukturen und längere Videos beinhalten. Insbesondere schlagen wir neuartige Hyper-Attention-Blöcke vor, um visuelle und sprachliche Informationen effizient in einen gemeinsamen, sprachgesteuerten semantischen Raum zu integrieren, was die Bearbeitung erweiterter mehrbildbasierter Szenarien erleichtert. Ausführliche experimentelle Ergebnisse deuten darauf hin, dass mPLUG-Owl3 im Vergleich zu Modellen ähnlicher Größe die derzeit beste Leistung auf Benchmarks für Einzelbilder, Mehrbilder und Videos erzielt. Darüber hinaus führen wir eine anspruchsvolle Bewertung für lange visuelle Sequenzen ein, die als „Distractor Resistance“ bezeichnet wird, um die Fähigkeit von Modellen zu testen, auch bei Ablenkungen konzentriert zu bleiben. Schließlich zeigt mPLUG-Owl3 mit der vorgeschlagenen Architektur hervorragende Leistung bei extrem langen visuellen Sequenzeingaben. Wir hoffen, dass mPLUG-Owl3 zur Entwicklung effizienterer und leistungsfähigerer mehrmodaler große Sprachmodelle beitragen kann.

mPLUG-Owl3: Hin zu einem Verständnis langer Bildsequenzen in multimodalen großen Sprachmodellen | Neueste Forschungsarbeiten | HyperAI