HyperAIHyperAI

Command Palette

Search for a command to run...

ULIP: Lernen einer einheitlichen Repräsentation von Sprache, Bildern und Punktwolken für die 3D-Verständnis

Le Xue Mingfei Gao Chen Xing Roberto Martín-Martín Jiajun Wu Caiming Xiong Ran Xu Juan Carlos Niebles Silvio Savarese

Zusammenfassung

Die Erkennungsfähigkeiten der aktuellen hochentwickelten 3D-Modelle sind durch Datensätze mit einer geringen Anzahl an annotierten Daten und einer vorgegebenen Kategorieauswahl begrenzt. In der 2D-Bildverarbeitung haben jüngste Fortschritte gezeigt, dass ähnliche Probleme durch die Nutzung von Wissen aus anderen Modalitäten, wie etwa Sprache, erheblich gelindert werden können. Angeregt durch diese Erkenntnisse, könnte das Ausnutzen multimodaler Informationen für die 3D-Modalität vielversprechend sein, um das Verständnis von 3D-Daten bei eingeschränkten Datenmengen zu verbessern. Allerdings ist diese Forschungsrichtung noch wenig untersucht. Daher stellen wir ULIP vor, ein Modell zur Lern eines vereinheitlichten Darstellungsraums für Bilder, Texte und 3D-Punktwolken durch Vortrainieren mit Objekttripeln aus den drei Modalitäten.Um den Mangel an Trainings-Tripeln zu überwinden, nutzt ULIP ein bereits vortrainiertes visuell-sprachliches Modell, das einen gemeinsamen visuellen und textuellen Raum durch das Training mit großen Mengen an Bild-Text-Paaren gelernt hat. Anschließend lernt ULIP einen 3D-Darstellungsraum, der mit dem gemeinsamen Bild-Text-Raum ausgerichtet ist, indem es eine kleine Anzahl automatisch synthetisierter Tripel verwendet. ULIP ist unabhängig von 3D-Kernnetzwerken und kann leicht in jede 3D-Architektur integriert werden.Experimente zeigen, dass ULIP die Leistung mehrerer neuer 3D-Kernnetze erheblich verbessert, indem es sie einfach auf ShapeNet55 unter Verwendung unseres Frameworks vortrainiert. Dies führt zu einem Stand der Technik in der Standard-3D-Klassifikation sowie in der Zero-Shot-3D-Klassifikation auf ModelNet40 und ScanObjectNN. ULIP verbessert auch die Leistung des PointMLP um etwa 3% in der 3D-Klassifikation auf ScanObjectNN und übertreffen PointCLIP um 28,8% in der Top-1-Akkuranz für die Zero-Shot-3D-Klassifikation auf ModelNet40. Unser Code und unsere vortrainierten Modelle sind unter https://github.com/salesforce/ULIP veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp