HyperAIHyperAI

Command Palette

Search for a command to run...

PointLLM: Große Sprachmodelle befähigen zum Verständnis von Punktwolken

Runsen Xu Xiaolong Wang Tai Wang† Yilun Chen Jiangmiao Pang† Dahua Lin

Zusammenfassung

Die bahnbrechenden Fortschritte in den Large Language Models (LLMs) haben einen tiefgreifenden Einfluss auf die natürlichsprachliche Verarbeitung gezeigt, aber das Verständnis dreidimensionaler Strukturen ist noch nicht vollständig integriert worden. In dieser Arbeit wird PointLLM vorgestellt, ein erster Versuch, diese Lücke zu schließen und LLMs das Verstehen von Punktwolken zu ermöglichen, was eine neue Perspektive jenseits zweidimensionaler visueller Daten eröffnet. PointLLM versteht farbige Objekt-Punktwolken unter menschlicher Anleitung und generiert kontextuell angemessene Antworten, wodurch sein Verständnis von Punktwolken und Alltagswissen demonstriert wird. Insbesondere nutzt es einen Punktwolken-Encoder in Kombination mit einem leistungsstarken LLM, um geometrische, optische und sprachliche Informationen effektiv zu fusionieren. Wir sammeln ein neues Datensatz bestehend aus 660.000 einfachen und 70.000 komplexen Punkt-Text-Anweisungspaaren, um eine zweistufige Trainingsstrategie zu ermöglichen: die Ausrichtung der latenten Räume und anschließend das Anpassen der Anweisungen am vereinten Modell. Um die wahrnehmungs- und generalisierungsfähigen Leistungen von PointLLM gründlich zu bewerten, legen wir zwei Benchmarks fest: Generative 3D-Objektklassifikation und 3D-Objektbeschreibung, die durch drei verschiedene Methoden evaluiert werden, darunter menschliche Bewertung, GPT-4/ChatGPT-Bewertung und traditionelle Metriken. Die experimentellen Ergebnisse zeigen, dass PointLLM eine überlegene Leistung im Vergleich zu existierenden 2D- und 3D-Baselines aufweist, insbesondere bei menschlich bewerteten Objektbeschreibungs-Aufgaben, wo es in über 50 % der Proben menschliche Annotatoren übertreffen konnte. Der Quellcode, die Datensätze und die Benchmarks sind unter https://github.com/OpenRobotLab/PointLLM verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PointLLM: Große Sprachmodelle befähigen zum Verständnis von Punktwolken | Paper | HyperAI