Command Palette
Search for a command to run...
Réseaux de neurones convolutifs à vue multiple pour la reconnaissance de formes 3D
Réseaux de neurones convolutifs à vue multiple pour la reconnaissance de formes 3D
Su Hang Maji Subhransu Kalogerakis Evangelos Learned-Miller Erik
Résumé
Une question fondamentale en vision par ordinateur concerne la représentation des formes 3D pour la reconnaissance : les formes 3D doivent-elles être décrites à l’aide de descripteurs agissant directement sur leurs formats natifs en 3D, tels que les grilles de voxels ou les maillages polygonaux, ou peut-on les représenter efficacement à l’aide de descripteurs basés sur des vues ? Nous abordons cette question dans le cadre de la reconnaissance de formes 3D à partir d’un ensemble de vues rendues projetées sur des images 2D. Nous présentons d’abord une architecture CNN standard entraînée à reconnaître indépendamment les vues rendues des formes. Nous montrons qu’une forme 3D peut être reconnue à partir d’une seule vue avec une précision bien supérieure à celle obtenue avec les descripteurs 3D d’état de l’art. Les taux de reconnaissance s’améliorent encore davantage lorsque plusieurs vues d’une même forme sont fournies. En outre, nous proposons une nouvelle architecture CNN qui fusionne les informations provenant de plusieurs vues d’une même forme 3D afin d’obtenir un descripteur unique et compact, offrant des performances de reconnaissance encore supérieures. Cette même architecture peut également être utilisée avec succès pour reconnaître avec précision des croquis manuels représentant des formes. Nous concluons que l’ensemble de vues 2D peut être extrêmement informatif pour la reconnaissance de formes 3D, et qu’il s’adapte naturellement aux architectures CNN émergentes et à leurs dérivées.