Point-Bind & Point-LLM: Ausrichtung von Punktwolken mit Multimodalität für 3D-Verstehen, -Generierung und Anweisungsbefolgung

Wir stellen Point-Bind vor, ein 3D-Multimodalitätsmodell, das Punktwolken mit 2D-Bildern, Sprache, Audio und Video ausrichtet. Gestützt auf ImageBind bauen wir einen gemeinsamen Einbettungsraum zwischen 3D und multimodalen Daten auf, was zahlreiche vielversprechende Anwendungen ermöglicht, wie z.B. die Generierung von 3D-Daten aus beliebigen Modalitäten, arithmetische Operationen in 3D-Einbettungen und offene 3D-Weltverarbeitung. Darüber hinaus präsentieren wir Point-LLM, das erste große 3D-Sprachmodell (LLM), das 3D-multimodale Anweisungen verfolgt. Durch parameter-effiziente Feinabstimmungstechniken wird die Semantik von Point-Bind in vortrainierte LLMs wie LLaMA integriert. Dies erfordert keine 3D-Anweisungsdaten, zeigt aber eine überlegene Fähigkeit zur Beantwortung von 3D- und multimodalen Fragen. Wir hoffen, dass unsere Arbeit der Gemeinschaft bei der Erweiterung von 3D-Punktwolken zu multimodalen Anwendungen Licht bringt. Der Quellcode ist unter https://github.com/ZiyuGuo99/Point-Bind_Point-LLM verfügbar.