HyperAIHyperAI

Command Palette

Search for a command to run...

Bending Reality : Transformateurs conscients de la distortion pour l’adaptation à la segmentation sémantique panoramique

Jiaming Zhang Kailun Yang Chaoxiang Ma Simon Reiß Kunyu Peng Rainer Stiefelhagen

Résumé

Les images panoramiques, offrant une vue à 360 degrés, contiennent une information exhaustive sur l’espace environnant, constituant ainsi une base riche pour la compréhension de scènes. Pour exploiter pleinement ce potentiel à travers des modèles robustes de segmentation panoramique, des annotations pixel-par-pixel abondantes et coûteuses sont essentielles. Bien que de telles annotations existent, elles sont principalement disponibles pour des images à angle étroit capturées par caméra à lentille unique (pinhole), qui, en tant que ressources pré-entraînées, se révèlent sous-optimales pour l’entraînement de modèles panoramiques. Les distorsions caractéristiques ainsi que la distribution différente des caractéristiques d’image dans les panoramas à 360 degrés entravent fortement le transfert d’information depuis le domaine riche en annotations des caméras pinhole, entraînant une dégradation significative des performances. Pour contourner cette différence de domaine et intégrer les annotations sémantiques provenant à la fois des images pinhole et des images panoramiques, nous proposons d’apprendre les déformations des objets et les distorsions des images panoramiques au sein des composants Deformable Patch Embedding (DPE) et Deformable MLP (DMLP), intégrés à notre modèle Transformer pour la segmentation sémantique panoramique, Trans4PASS. Enfin, nous établissons une correspondance sémantique partagée entre les représentations features des images pinhole et panoramiques en générant des prototypes multi-échelles et en les alignant via notre méthode d’adaptation de domaine non supervisée, Mutual Prototypical Adaptation (MPA). Sur le jeu de données intérieur Stanford2D3D, notre modèle Trans4PASS combiné à MPA atteint des performances comparables à celles des méthodes état-de-l’art entièrement supervisées, tout en réduisant de plus de 1 400 le nombre d’images panoramiques annotées nécessaires. Sur le jeu de données extérieur DensePASS, nous surpassons l’état de l’art de 14,39 % en mIoU, établissant un nouveau record à 56,38 %. Le code source sera rendu publique à l’adresse suivante : https://github.com/jamycheung/Trans4PASS.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp