HyperAIHyperAI
il y a 2 mois

PLA : Compréhension de Scènes 3D Guidée par le Langage

Ding, Runyu ; Yang, Jihan ; Xue, Chuhui ; Zhang, Wenqing ; Bai, Song ; Qi, Xiaojuan
PLA : Compréhension de Scènes 3D Guidée par le Langage
Résumé

La compréhension de scène à vocabulaire ouvert vise à localiser et reconnaître des catégories non vues au-delà de l'espace d'étiquettes annotées. Les récentes avancées dans la perception 2D à vocabulaire ouvert sont largement dues aux données image-texte couplées à grande échelle issues d'Internet, qui contiennent des concepts lexicaux riches. Cependant, ce succès ne peut pas être directement transféré aux scénarios 3D en raison de l'inaccessibilité de paires 3D-texte à grande échelle. Pour remédier à cela, nous proposons d'extraire les connaissances encodées dans les modèles pré-entraînés de vision-langage (VL) en générant des légendes pour des images multivues extraites de données 3D, ce qui permet une association explicite entre les données 3D et des légendes sémantiquement riches. De plus, pour favoriser l'apprentissage de représentations visuelles-sémantiques allant du grossier au fin à partir des légendes, nous concevons des paires 3D-légende hiérarchiques, en exploitant les contraintes géométriques entre les scènes 3D et les images multivues. Enfin, en utilisant l'apprentissage par contraste, le modèle apprend des plongements (embeddings) sensibles au langage qui relient les données 3D et le texte pour des tâches à vocabulaire ouvert. Notre méthode non seulement surpasse considérablement les méthodes de base avec un gain de 25.8% $\sim$ 44.7% en hIoU et de 14.5% $\sim$ 50.4% en hAP$_{50}$ pour la segmentation sémantique et instancielle à vocabulaire ouvert, mais elle montre également une robustesse notable en termes de transfert sur des tâches complexes de transfert inter-domaine sans exemple (zero-shot). Voir le site web du projet : https://dingry.github.io/projects/PLA.

PLA : Compréhension de Scènes 3D Guidée par le Langage | Articles de recherche récents | HyperAI