vor 2 Monaten

MiniGPT-3D: Effizientes Ausrichten von 3D-Punktwolken mit großen Sprachmodellen unter Verwendung von 2D-Vorreiterinformationen

Tang, Yuan ; Han, Xu ; Li, Xianzhi ; Yu, Qiao ; Hao, Yixue ; Hu, Long ; Chen, Min

Abstract

Große 2D Sehens- und Sprachmodelle (2D-LLMs) haben durch die Verbindung von großen Sprachmodellen (LLMs) mit Bildern mittels eines einfachen Projektors erhebliche Aufmerksamkeit erhalten. Angeregt durch ihren Erfolg, integrieren große 3D Punktwolke-Sprachmodelle (3D-LLMs) ebenfalls Punktwolken in LLMs. Allerdings erfordert die direkte Ausrichtung von Punktwolken auf LLMs hohe Trainingskosten, typischerweise in Hunderten von GPU-Stunden auf A100-Grafikkarten, was die Entwicklung von 3D-LLMs behindert. In dieser Arbeit stellen wir MiniGPT-3D vor, ein effizientes und leistungsfähiges 3D-LLM, das mehrere Stand-of-the-Art-Ergebnisse erreicht, während es nur 27 Stunden auf einer einzigen RTX 3090 trainiert wird. Insbesondere schlagen wir vor, 3D-Punktwolken mit LLMs unter Verwendung von 2D-Vorwissen aus 2D-LLMs auszurichten, wodurch die Ähnlichkeit zwischen 2D- und 3D-Bildinformationen genutzt werden kann. Wir führen eine neuartige vierstufige Trainingsstrategie für die modalitätsübergreifende Ausrichtung in kaskadierter Form ein sowie ein Modul zur Mischung von Abfrageexperten, um Merkmale mit hoher Effizienz anpassbar zu aggregieren. Darüber hinaus nutzen wir parameter-effiziente Feinabstimmungsmethoden wie LoRA und Norm-Fine-Tuning, was lediglich 47,8 Millionen lernfähige Parameter ergibt – bis zu 260-mal weniger als bei bestehenden Methoden. Umfangreiche Experimente zeigen, dass MiniGPT-3D auf den Aufgaben der Klassifikation und Beschreibung von 3D-Objekten Stand-of-the-Art-Ergebnisse erzielt und dabei erheblich günstigere Trainingskosten hat. Bemerkenswerterweise erreicht MiniGPT-3D bei der anspruchsvollen Objektbeschreibungs-Aufgabe im Vergleich zu ShapeLLM-13B einen Anstieg des GPT-4-Bewertungsscores um 8,12 Punkte, während letzteres insgesamt 160 GPU-Stunden auf acht A800-Grafikkarten benötigt. Wir sind die Ersten, die effiziente 3D-LLMs erforschen und damit der Gemeinschaft neue Erkenntnisse bieten. Der Quellcode und die Gewichte sind unter https://github.com/TangYuan96/MiniGPT-3D verfügbar.