HyperAIHyperAI
vor 2 Monaten

PointLLM: Große Sprachmodelle befähigen zum Verständnis von Punktwolken

Xu, Runsen ; Wang, Xiaolong ; Wang, Tai ; Chen, Yilun ; Pang, Jiangmiao ; Lin, Dahua
PointLLM: Große Sprachmodelle befähigen zum Verständnis von Punktwolken
Abstract

Die bahnbrechenden Fortschritte in den Large Language Models (LLMs) haben einen tiefgreifenden Einfluss auf die natürlichsprachliche Verarbeitung gezeigt, aber das Verständnis dreidimensionaler Strukturen ist noch nicht vollständig integriert worden. In dieser Arbeit wird PointLLM vorgestellt, ein erster Versuch, diese Lücke zu schließen und LLMs das Verstehen von Punktwolken zu ermöglichen, was eine neue Perspektive jenseits zweidimensionaler visueller Daten eröffnet. PointLLM versteht farbige Objekt-Punktwolken unter menschlicher Anleitung und generiert kontextuell angemessene Antworten, wodurch sein Verständnis von Punktwolken und Alltagswissen demonstriert wird. Insbesondere nutzt es einen Punktwolken-Encoder in Kombination mit einem leistungsstarken LLM, um geometrische, optische und sprachliche Informationen effektiv zu fusionieren. Wir sammeln ein neues Datensatz bestehend aus 660.000 einfachen und 70.000 komplexen Punkt-Text-Anweisungspaaren, um eine zweistufige Trainingsstrategie zu ermöglichen: die Ausrichtung der latenten Räume und anschließend das Anpassen der Anweisungen am vereinten Modell. Um die wahrnehmungs- und generalisierungsfähigen Leistungen von PointLLM gründlich zu bewerten, legen wir zwei Benchmarks fest: Generative 3D-Objektklassifikation und 3D-Objektbeschreibung, die durch drei verschiedene Methoden evaluiert werden, darunter menschliche Bewertung, GPT-4/ChatGPT-Bewertung und traditionelle Metriken. Die experimentellen Ergebnisse zeigen, dass PointLLM eine überlegene Leistung im Vergleich zu existierenden 2D- und 3D-Baselines aufweist, insbesondere bei menschlich bewerteten Objektbeschreibungs-Aufgaben, wo es in über 50 % der Proben menschliche Annotatoren übertreffen konnte. Der Quellcode, die Datensätze und die Benchmarks sind unter https://github.com/OpenRobotLab/PointLLM verfügbar.

PointLLM: Große Sprachmodelle befähigen zum Verständnis von Punktwolken | Neueste Forschungsarbeiten | HyperAI