ScanNet : Reconstructions 3D Richement Annotées de Scènes Intérieures

Une exigence essentielle pour l'exploitation des méthodes d'apprentissage profond supervisé est la disponibilité de grands ensembles de données étiquetés. Malheureusement, dans le contexte de la compréhension des scènes RGB-D, très peu de données sont disponibles -- les ensembles de données actuels couvrent un éventail restreint de vues de scènes et présentent des annotations sémantiques limitées. Pour remédier à ce problème, nous présentons ScanNet, un ensemble de vidéos RGB-D contenant 2,5 millions de vues dans 1513 scènes annotées avec des poses caméra 3D, des reconstructions de surfaces et des segmentations sémantiques. Pour collecter ces données, nous avons conçu un système d'acquisition RGB-D facile à utiliser et évolutif, qui inclut une reconstruction de surface automatisée et une annotation sémantique par crowdsourcing. Nous démontrons que l'utilisation de ces données permet d'atteindre des performances au niveau de l'état de l'art sur plusieurs tâches de compréhension des scènes 3D, notamment la classification d'objets 3D, l'étiquetage sémantique de voxels et la recherche de modèles CAD. L'ensemble de données est librement accessible à l'adresse http://www.scan-net.org.