MLCVNet : Multi-Level Context VoteNet pour la détection d'objets 3D

Dans cet article, nous abordons la tâche de détection d’objets 3D en capturant des informations contextuelles à plusieurs niveaux grâce au mécanisme d’attention auto-associative et à la fusion de caractéristiques multi-échelles. La plupart des méthodes existantes de détection d’objets 3D identifient les objets de manière indépendante, sans tenir compte des informations contextuelles entre ces objets. À l’inverse, nous proposons Multi-Level Context VoteNet (MLCVNet), une approche qui reconnaît les objets 3D de manière corrélative, s’appuyant sur l’état de l’art de VoteNet. Nous intégrons trois modules contextuels aux étapes de vote et de classification de VoteNet afin d’encoder des informations contextuelles à différents niveaux. Plus précisément, un module Patch-to-Patch Context (PPC) est utilisé pour capturer les informations contextuelles entre les patches de points, avant le vote visant à déterminer les points centraux correspondants aux objets. Ensuite, un module Object-to-Object Context (OOC) est introduit avant l’étape de proposition et de classification, afin de modéliser les relations contextuelles entre les candidats objets. Enfin, un module Global Scene Context (GSC) est conçu pour apprendre le contexte global de la scène. Nous démontrons ainsi la capacité de notre méthode à capturer des informations contextuelles aux niveaux patch, objet et scène. Notre approche s’avère efficace pour améliorer la précision de détection, atteignant de nouveaux records sur des jeux de données exigeants en détection d’objets 3D, à savoir SUN RGB-D et ScanNet. Nous mettons également à disposition notre code source à l’adresse suivante : https://github.com/NUAAXQ/MLCVNet.