Segmentation sémantique basée sur RGB par pré-entraînement auto-supervisé en profondeur

Bien que des jeux de données à grande échelle bien connus, tels qu’ImageNet, aient permis des progrès significatifs dans la compréhension d’images, la majorité de ces jeux de données nécessitent une annotation manuelle étendue, ce qui limite leur scalabilité. Cette contrainte freine l’évolution des techniques de compréhension d’images. L’impact de ces grands jeux de données est visible dans presque toutes les tâches et méthodes de vision, notamment sous la forme d’un pré-entraînement pour l’initialisation. Dans ce travail, nous proposons une technique facilement scalable et auto-supervisée pouvant être utilisée pour pré-entraîner n’importe quelle méthode de segmentation sémantique en RGB. Plus précisément, notre approche de pré-entraînement exploite des étiquettes automatiquement générées à partir de capteurs de profondeur. Ces étiquettes, désignées HN-labels, représentent des patchs distincts selon la hauteur et la normale, permettant ainsi d’extraire efficacement des informations sémantiques locales utiles pour la segmentation sémantique en RGB. Nous démontrons comment notre pré-entraînement auto-supervisé basé sur les HN-labels peut remplacer avantageusement le pré-entraînement sur ImageNet, tout en utilisant 25 fois moins d’images et sans nécessiter aucune annotation manuelle. Nous pré-entraînons un réseau de segmentation sémantique à l’aide de nos HN-labels, qui sont plus proches de notre tâche finale que le pré-entraînement sur une tâche moins liée, comme la classification avec ImageNet. Nous évaluons notre méthode sur deux jeux de données (NYUv2 et CamVid), et montrons que la similarité entre la tâche de pré-entraînement et la tâche cible présente un avantage non seulement en accélérant le processus de pré-entraînement, mais aussi en permettant d’atteindre une précision finale supérieure en segmentation sémantique par rapport au pré-entraînement sur ImageNet.