HyperAIHyperAI

Command Palette

Search for a command to run...

3D-LLM: Die 3D-Welt in große Sprachmodelle integrieren

Yining Hong Peihao Chen Yilun Du Chuang Gan Haoyu Zhen Shuhong Zheng Zhenfang Chen

Zusammenfassung

Große Sprachmodelle (LLMs) und Sehen-Sprach-Modelle (VLMs) haben sich in mehreren Aufgaben, wie dem allgemeinen Schlussfolgern, als herausragend erwiesen. Obwohl diese Modelle sehr leistungsfähig sind, sind sie nicht im dreidimensionalen physischen Raum verankert, der reichere Konzepte wie räumliche Beziehungen, Handlungsmöglichkeiten, Physik, Layout und Ähnliches umfasst. In dieser Arbeit schlagen wir vor, den 3D-Raum in große Sprachmodelle zu integrieren und eine neue Familie von 3D-LLMs einzuführen. Insbesondere können 3D-LLMs 3D-Punktwolken und deren Eigenschaften als Eingabe akzeptieren und eine Vielzahl von 3D-bezogenen Aufgaben durchführen, darunter Beschreibungserstellung, dichte Beschreibungserstellung, 3D-Fragebeantwortung, Aufgabenzersplitterung, 3D-Ankerlegung, 3D-unterstütztes Dialogsystem und Navigation. Durch die Verwendung dreier von uns entwickelter Prompting-Mechanismen konnten wir über 300.000 3D-Sprachdatensätze sammeln, die diese Aufgaben abdecken.Um die 3D-LLMs effizient zu trainieren, nutzen wir zunächst einen 3D-Feature-Extractor (3D-Eigenschaftsextraktor), der aus gerenderten multiview-Bildern (Mehrsichtsbildern) 3D-Eigenschaften extrahiert. Anschließend verwenden wir 2D-VLMs als Grundlage für das Training unserer 3D-LLMs. Durch die Einführung eines Mechanismus zur dreidimensionalen Lokalisierung können die 3D-LLMs bessere räumliche Informationen im dreidimensionalen Raum erfassen. Experimente auf ScanQA zeigen, dass unser Modell erheblich besser abschneidet als state-of-the-art-Baselines (z.B., der BLEU-1-Wert übertreffen den Stand der Technik um 9 %). Darüber hinaus zeigen Experimente auf unseren intern gehaltenenen Datensätzen für 3D-Beschreibungserstellung, Aufgabenzusammenstellung und 3D-unterstützten Dialogsystemen, dass unser Modell die Leistung von 2D-VLMs übertrifft. Qualitative Beispiele verdeutlichen zudem, dass unser Modell in der Lage ist, Aufgaben zu bewältigen, die den Möglichkeiten bestehender LLMs und VLMs überlegen sind.Projektseite: https://vis-www.cs.umass.edu/3dllm/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp