HyperAIHyperAI
il y a 2 mois

MVTN : Réseau de Transformation Multivue pour la Reconnaissance de Formes 3D

Hamdi, Abdullah ; Giancola, Silvio ; Ghanem, Bernard
MVTN : Réseau de Transformation Multivue pour la Reconnaissance de Formes 3D
Résumé

Les méthodes de projection multivues ont démontré leur capacité à atteindre des performances de pointe en reconnaissance de formes 3D. Ces méthodes apprennent différentes façons d'agréger les informations provenant de plusieurs vues. Cependant, les points de vue caméra pour ces vues sont généralement définis de manière heuristique et fixés pour toutes les formes. Pour pallier le manque de dynamisme des méthodes multivues actuelles, nous proposons d'apprendre ces points de vue. Plus précisément, nous introduisons le réseau Multi-View Transformation Network (MVTN) qui régresse les points de vue optimaux pour la reconnaissance de formes 3D, en s'appuyant sur les progrès réalisés dans le domaine du rendu différentiable. En conséquence, MVTN peut être entraîné de bout en bout avec n'importe quel réseau multivues pour la classification de formes 3D. Nous intégrons MVTN dans un nouveau pipeline multivues adaptatif capable de rendre soit des maillages 3D, soit des nuages de points. MVTN montre des gains de performance clairs dans les tâches de classification et de recherche de formes 3D sans nécessiter une supervision supplémentaire lors de l'entraînement. Dans ces tâches, MVTN atteint des performances de pointe sur ModelNet40, ShapeNet Core55 et le jeu de données ScanObjectNN le plus récent et réaliste (jusqu'à 6 % d'amélioration). De manière intéressante, nous montrons également que MVTN peut offrir une robustesse du réseau contre la rotation et l'occlusion dans le domaine 3D. Le code est disponible à l'adresse https://github.com/ajhamdi/MVTN .

MVTN : Réseau de Transformation Multivue pour la Reconnaissance de Formes 3D | Articles de recherche récents | HyperAI