il y a 8 mois

Résumé

La compréhension de scène à vocabulaire ouvert vise à localiser et reconnaître des catégories non vues au-delà de l'espace d'étiquettes annotées. Les récentes avancées dans la perception 2D à vocabulaire ouvert sont largement dues aux données image-texte couplées à grande échelle issues d'Internet, qui contiennent des concepts lexicaux riches. Cependant, ce succès ne peut pas être directement transféré aux scénarios 3D en raison de l'inaccessibilité de paires 3D-texte à grande échelle. Pour remédier à cela, nous proposons d'extraire les connaissances encodées dans les modèles pré-entraînés de vision-langage (VL) en générant des légendes pour des images multivues extraites de données 3D, ce qui permet une association explicite entre les données 3D et des légendes sémantiquement riches. De plus, pour favoriser l'apprentissage de représentations visuelles-sémantiques allant du grossier au fin à partir des légendes, nous concevons des paires 3D-légende hiérarchiques, en exploitant les contraintes géométriques entre les scènes 3D et les images multivues. Enfin, en utilisant l'apprentissage par contraste, le modèle apprend des plongements (embeddings) sensibles au langage qui relient les données 3D et le texte pour des tâches à vocabulaire ouvert. Notre méthode non seulement surpasse considérablement les méthodes de base avec un gain de 25.8% $\sim$ 44.7% en hIoU et de 14.5% $\sim$ 50.4% en hAP $_{50}$ pour la segmentation sémantique et instancielle à vocabulaire ouvert, mais elle montre également une robustesse notable en termes de transfert sur des tâches complexes de transfert inter-domaine sans exemple (zero-shot). Voir le site web du projet : https://dingry.github.io/projects/PLA.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Segmentation Sémantique

Décrivain D'image

Multimodal

Vision Par Ordinateur

Tâche

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Segmentation Sémantique

Décrivain D'image

Multimodal

Vision Par Ordinateur

Tâche

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

PLA : Compréhension de Scènes 3D Guidée par le Langage

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PLA : Compréhension de Scènes 3D Guidée par le Langage

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PLA : Compréhension de Scènes 3D Guidée par le Langage

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters