3D-LLM: Die 3D-Welt in große Sprachmodelle integrieren

Große Sprachmodelle (LLMs) und Sehen-Sprach-Modelle (VLMs) haben sich in mehreren Aufgaben, wie dem allgemeinen Schlussfolgern, als herausragend erwiesen. Obwohl diese Modelle sehr leistungsfähig sind, sind sie nicht im dreidimensionalen physischen Raum verankert, der reichere Konzepte wie räumliche Beziehungen, Handlungsmöglichkeiten, Physik, Layout und Ähnliches umfasst. In dieser Arbeit schlagen wir vor, den 3D-Raum in große Sprachmodelle zu integrieren und eine neue Familie von 3D-LLMs einzuführen. Insbesondere können 3D-LLMs 3D-Punktwolken und deren Eigenschaften als Eingabe akzeptieren und eine Vielzahl von 3D-bezogenen Aufgaben durchführen, darunter Beschreibungserstellung, dichte Beschreibungserstellung, 3D-Fragebeantwortung, Aufgabenzersplitterung, 3D-Ankerlegung, 3D-unterstütztes Dialogsystem und Navigation. Durch die Verwendung dreier von uns entwickelter Prompting-Mechanismen konnten wir über 300.000 3D-Sprachdatensätze sammeln, die diese Aufgaben abdecken.Um die 3D-LLMs effizient zu trainieren, nutzen wir zunächst einen 3D-Feature-Extractor (3D-Eigenschaftsextraktor), der aus gerenderten multiview-Bildern (Mehrsichtsbildern) 3D-Eigenschaften extrahiert. Anschließend verwenden wir 2D-VLMs als Grundlage für das Training unserer 3D-LLMs. Durch die Einführung eines Mechanismus zur dreidimensionalen Lokalisierung können die 3D-LLMs bessere räumliche Informationen im dreidimensionalen Raum erfassen. Experimente auf ScanQA zeigen, dass unser Modell erheblich besser abschneidet als state-of-the-art-Baselines (z.B., der BLEU-1-Wert übertreffen den Stand der Technik um 9 %). Darüber hinaus zeigen Experimente auf unseren intern gehaltenenen Datensätzen für 3D-Beschreibungserstellung, Aufgabenzusammenstellung und 3D-unterstützten Dialogsystemen, dass unser Modell die Leistung von 2D-VLMs übertrifft. Qualitative Beispiele verdeutlichen zudem, dass unser Modell in der Lage ist, Aufgaben zu bewältigen, die den Möglichkeiten bestehender LLMs und VLMs überlegen sind.Projektseite: https://vis-www.cs.umass.edu/3dllm/.