HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation sémantique 3D intérieure ancrée dans le langage dans le monde réel

David Rozenberszki Or Litany Angela Dai

Résumé

Les avancées récentes en segmentation sémantique 3D basées sur les réseaux neuronaux profonds ont montré un succès remarquable, marqué par une amélioration rapide des performances sur les jeux de données disponibles. Toutefois, les benchmarks actuels de segmentation sémantique 3D ne comprennent qu’un nombre réduit de catégories — moins de 30 pour ScanNet et SemanticKITTI, par exemple — ce qui ne suffit pas à refléter la diversité des environnements réels (la compréhension sémantique d’images, par exemple, couvre des centaines voire des milliers de classes). Ainsi, nous proposons d’étudier un vocabulaire plus étendu pour la segmentation sémantique 3D, en introduisant un nouveau benchmark étendu basé sur les données ScanNet, comprenant 200 catégories, soit un ordre de grandeur supérieur à celui des études antérieures. Ce nombre élevé de catégories entraîne également un déséquilibre naturel important entre les classes, deux défis majeurs pour les méthodes existantes de segmentation sémantique 3D. Pour apprendre des caractéristiques 3D plus robustes dans ce contexte, nous proposons une méthode de pré-entraînement pilotée par le langage, visant à faire en sorte que les caractéristiques 3D apprises, même lorsqu’elles disposent de très peu d’exemples d’entraînement, se situent près de leurs embeddings textuels pré-entraînés. Des expériences étendues montrent que notre approche surpasse de manière cohérente les méthodes de pré-entraînement 3D les plus avancées sur notre benchmark proposé (+9 % de mIoU relatif), y compris dans des scénarios à données limitées, où elle atteint +25 % de mIoU relatif avec seulement 5 % d’étiquetages.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Segmentation sémantique 3D intérieure ancrée dans le langage dans le monde réel | Articles | HyperAI