HyperAIHyperAI
il y a 2 mois

Réexaminer la détection d'objets saillants RGB-D : modèles, ensembles de données et benchmarks à grande échelle

Deng-Ping Fan; Zheng Lin; Jia-Xing Zhao; Yun Liu; Zhao Zhang; Qibin Hou; Menglong Zhu; Ming-Ming Cheng
Réexaminer la détection d'objets saillants RGB-D : modèles, ensembles de données et benchmarks à grande échelle
Résumé

L'utilisation d'informations RGB-D pour la détection d'objets saillants a été largement explorée ces dernières années. Cependant, peu d'efforts ont été consacrés à la modélisation de la détection d'objets saillants dans des scènes d'activités humaines réelles avec RGB-D. Dans ce travail, nous comblons cette lacune en apportant les contributions suivantes à la détection d'objets saillants RGB-D :Nous avons soigneusement collecté un nouveau jeu de données SIP (personne saillante), composé de ~1000 images haute résolution couvrant diverses scènes du monde réel vues sous différents angles, poses, occultations, éclairages et arrière-plans.Nous avons réalisé une évaluation à grande échelle (et, jusqu'à présent, la plus complète) comparant les méthodes contemporaines, ce qui faisait cruellement défaut dans le domaine et peut servir de référence pour les futures recherches. Nous avons systématiquement résumé 32 modèles populaires et évalué 18 parties de ces 32 modèles sur sept jeux de données contenant au total environ 97 000 images.Nous proposons une architecture générale simple appelée Réseau Profond de Dépuration de Profondeur (Deep Depth-Depurator Network ou D3Net). Il est composé d'une unité de dépuration de profondeur (Depth Depurator Unit ou DDU) et d'un module d'apprentissage des caractéristiques tri-flux (Three-Stream Feature Learning Module ou FLM), qui effectuent respectivement le filtrage des cartes de profondeur de faible qualité et l'apprentissage des caractéristiques inter-modales. Ces composants forment une structure imbriquée et sont soigneusement conçus pour être appris conjointement. Le D3Net dépasse les performances de tous ses prédécesseurs selon les cinq métriques considérées, constituant ainsi un modèle puissant pour faire progresser la recherche dans ce domaine. Nous montrons également que le D3Net peut être utilisé pour extraire efficacement des masques d'objets saillants à partir de scènes réelles, permettant des applications efficaces de changement d'arrière-plan avec une vitesse de 65 images par seconde sur une seule GPU.Toutes les cartes de saillance, notre nouveau jeu de données SIP, le modèle D3Net et les outils d'évaluation sont disponibles publiquement sur https://github.com/DengPingFan/D3NetBenchmark.

Réexaminer la détection d'objets saillants RGB-D : modèles, ensembles de données et benchmarks à grande échelle | Articles de recherche récents | HyperAI