Trans4Trans : Transformer efficace pour la segmentation d'objets transparents et de scènes sémantiques dans l'assistance à la navigation en situation réelle

Les objets transparents, tels que les murs et portes en verre, constituent des obstacles architecturaux qui entravent la mobilité des personnes atteintes de faible vision ou de cécité. Par exemple, l’espace ouvert derrière une porte vitrée reste inaccessible sauf s’il est correctement perçu et interagi. Or, les technologies d’assistance traditionnelles couvrent rarement la segmentation de ces objets transparents, critiques pour la sécurité. Dans cet article, nous proposons un système portatif basé sur un nouveau modèle de perception de la transparence, Trans4Trans, fondé sur un Transformer à double tête, capable de segmenter à la fois les objets généraux et les objets transparents. Les deux résultats de segmentation denses sont ensuite combinés avec des informations de profondeur dans le système afin d’aider les utilisateurs à se déplacer en toute sécurité et à contourner efficacement les obstacles transparents. Nous introduisons également un module léger de traitement par Transformer (TPM) pour réaliser une interprétation des caractéristiques à plusieurs échelles dans le décodeur basé sur Transformer. Grâce au TPM, les deux décodeurs peuvent apprendre conjointement à partir de jeux de données correspondants, garantissant ainsi une robustesse accrue tout en maintenant une efficacité élevée sur une GPU portable, avec une augmentation négligeable du coût de calcul. L’architecture globale du modèle Trans4Trans repose sur une structure symétrique encodeur-décodeur, qui dépasse les méthodes de pointe sur les jeux de tests des datasets Stanford2D3D et Trans10K-v2, atteignant respectivement des scores mIoU de 45,13 % et 75,14 %. Une étude utilisateurs ainsi que diverses pré-tests menés dans des scénarios intérieurs et extérieurs ont largement validé l'utilisabilité et la fiabilité de notre système d'assistance. Par ailleurs, le modèle Trans4Trans obtient des performances remarquables sur des jeux de données dédiés aux scènes de conduite : sur les datasets Cityscapes, ACDC et DADA-seg, correspondant respectivement à des environnements urbains courants, à des conditions météorologiques défavorables et à des scénarios d’accidents de la route, il atteint des scores mIoU de 81,5 %, 76,3 % et 39,2 %, démontrant ainsi son efficacité élevée et sa robustesse pour les applications réelles dans le domaine des transports.