HorizonNet : Apprentissage de la disposition des pièces avec une représentation 1D et l'augmentation de données par étirement panoramique

Nous présentons une nouvelle approche pour estimer la disposition tridimensionnelle d'une pièce à partir d'une seule image panoramique. Nous représentons la disposition de la pièce par trois vecteurs unidimensionnels qui encodent, pour chaque colonne d'image, les positions des limites sol-mur et plafond-mur, ainsi que l'existence d'une limite mur-mur. Le réseau proposé, HorizonNet, formé pour prédire la disposition 1D, surpasse les approches précédentes de pointe. La procédure de post-traitement conçue pour récupérer les dispositions tridimensionnelles des pièces à partir des prédictions 1D peut inférer automatiquement la forme de la pièce avec un faible coût de calcul – elle prend moins de 20 ms pour une image panoramique, tandis que les travaux antérieurs pouvaient nécessiter plusieurs dizaines de secondes. Nous proposons également Pano Stretch Data Augmentation (augmentation de données par étirement panoramique), qui peut diversifier les données panoramiques et être appliquée à d'autres tâches d'apprentissage liées aux images panoramiques. En raison de la limitation des données disponibles pour les dispositions non cuboïdes, nous avons relabellisé 65 dispositions générales du jeu de données actuel pour le réglage fin. Notre approche montre de bonnes performances sur les dispositions générales grâce aux résultats qualitatifs et à la validation croisée.