HyperAIHyperAI
vor 9 Tagen

Oryx MLLM: Bedarfsorientierte räumlich-zeitliche Wahrnehmung in beliebiger Auflösung

Zuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao
Oryx MLLM: Bedarfsorientierte räumlich-zeitliche Wahrnehmung in beliebiger Auflösung
Abstract

Bildliche Daten nehmen eine Vielzahl von Formen an, reichend von kleinen Symbolen mit nur wenigen Pixeln bis hin zu langen Videos, die mehrere Stunden dauern können. Herkömmliche multimodale große Sprachmodelle (LLMs) standardisieren diese vielfältigen visuellen Eingaben typischerweise auf eine feste Auflösung für die visuellen Encoder und erzeugen für die LLMs annähernd gleich viele Token. Dieser Ansatz ist für die multimodale Verständnisfähigkeit suboptimal und ineffizient bei der Verarbeitung von Eingaben mit variabler räumlicher und zeitlicher Länge. Um dieses Problem zu lösen, stellen wir Oryx vor – eine einheitliche multimodale Architektur zur räumlich-zeitlichen Verarbeitung von Bildern, Videos und mehransichtigen 3D-Szenen. Oryx bietet eine bedarfsorientierte Lösung, um visuelle Eingaben mit beliebigen räumlichen Abmessungen und zeitlichen Längen nahtlos und effizient zu verarbeiten, dank zweier zentraler Innovationen: 1) einem vortrainierten OryxViT-Modell, das Bilder jeder Auflösung in für LLMs geeignete visuelle Darstellungen umwandeln kann; 2) einem dynamischen Komprimierungsmodul, das auf Anfrage eine Kompression der visuellen Token im Verhältnis von 1× bis 16× unterstützt. Diese Gestaltung ermöglicht es Oryx, extrem lange visuelle Kontexte wie Videos mit niedriger Auflösung und hoher Kompression zu verarbeiten, während gleichzeitig eine hohe Erkennungsgenauigkeit bei Aufgaben wie der Dokumentenverarbeitung mit ursprünglicher Auflösung und ohne Kompression beibehalten wird. Neben diesen architektonischen Verbesserungen trägt eine verbesserte Datenaufbereitung sowie spezialisierte Trainingsstrategien für die Verarbeitung langer Kontexte und räumlich bewusste Daten dazu bei, dass Oryx gleichzeitig starke Fähigkeiten im multimodalen Verständnis von Bildern, Videos und 3D-Szenen erzielt. Unsere Arbeit ist unter https://github.com/Oryx-mllm/Oryx öffentlich zugänglich.