Command Palette
Search for a command to run...
simCrossTrans : Un apprentissage par transfert simple entre modalités pour la détection d'objets avec des ConvNets ou des Transformers visuels
simCrossTrans : Un apprentissage par transfert simple entre modalités pour la détection d'objets avec des ConvNets ou des Transformers visuels
Shen Xiaoke ; Stamos Ioannis
Résumé
Le transfert d'apprentissage est largement utilisé en vision par ordinateur (CV) et en traitement du langage naturel (NLP), où il obtient de grands succès. La plupart des systèmes de transfert d'apprentissage sont basés sur la même modalité (par exemple, les images RGB en CV et le texte en NLP). Cependant, les systèmes de transfert d'apprentissage inter-modalités (CMTL) sont rares. Dans ce travail, nous étudions le CMTL du 2D au 3D pour explorer les performances maximales des systèmes uniquement basés sur des capteurs 3D, qui jouent un rôle crucial dans la navigation robotique et se distinguent dans les scénarios à faible luminosité. Bien que la plupart des pipelines CMTL du 2D au 3D soient complexes et reposent sur des réseaux neuronaux convolutifs (ConvNets), notre approche est facile à mettre en œuvre, à développer et repose à la fois sur les ConvNets et les transformateurs visuels (ViTs) : 1) En convertissant les nuages de points en pseudo-images, nous pouvons utiliser un réseau presque identique à celui des modèles pré-entraînés basés sur des images 2D. Cela rend notre système facile à implémenter et à élargir.2) Récemment, les ViTs ont montré de bonnes performances et une robustesse face aux occultations, l'une des principales raisons de la mauvaise performance des systèmes de vision 3D. Nous avons exploré à la fois les ViTs et les ConvNets avec des tailles de modèles similaires pour examiner leurs différences de performance.Nous nommons notre approche simCrossTrans : un transfert d'apprentissage inter-modalités simple avec ConvNets ou ViTs. Les expériences menées sur le jeu de données SUN RGB-D montrent que : avec simCrossTrans, nous obtenons respectivement un gain absolu de performance de 13.2% et 16.1% basé sur les ConvNets et les ViTs. Nous avons également observé que l'approche basée sur les ViTs performe 9.7% mieux que celle basée sur les ConvNets, démontrant ainsi la puissance de simCrossTrans avec ViT. simCrossTrans avec ViTs dépasse largement l'état de l'art précédent (SOTA) avec un écart significatif de +15.4% mAP50. Comparé à l'état de l'art précédent en détection 2D basée sur des images RGB, notre système uniquement basé sur des images profondeur ne présente qu'un écart de 1%. Le code source, les journaux d'entraînement/d'inférence et les modèles sont disponibles publiquement sur https://github.com/liketheflower/simCrossTrans.