Adaptation à l'exécution vs. Généralisation à l'entraînement : Une étude de cas dans la segmentation d'instances humaines utilisant l'estimation de points clés

Nous abordons le problème de l'amélioration de la qualité des masques de segmentation d'instances humaines pour une image de test donnée en utilisant l'estimation des points clés. Nous comparons deux approches alternatives. La première approche est une méthode d'adaptation à temps de test (TTA), où nous autorisons la modification à temps de test des poids du réseau de segmentation à partir d'une seule image de test non étiquetée. Dans cette approche, nous ne supposons pas un accès à temps de test au jeu de données source étiqueté. Plus précisément, notre méthode TTA consiste à utiliser les estimations des points clés comme pseudo-étiquettes et à les rétropropager pour ajuster les poids du backbone. La deuxième approche est une méthode de généralisation à temps d'entraînement (TTG), où nous permettons un accès hors ligne au jeu de données source étiqueté mais pas la modification à temps de test des poids. De plus, nous ne supposons pas la disponibilité d'images ou de connaissances sur le domaine cible. Notre méthode TTG consiste à augmenter les caractéristiques du backbone avec celles générées par la tête des points clés et à alimenter le vecteur agrégé dans la tête du masque. À travers un ensemble complet d'études par élimination, nous évaluons les deux approches et identifions plusieurs facteurs limitant les gains TTA. En particulier, nous montrons que, en l'absence d'un décalage significatif entre les domaines, la TTA peut nuire et la TTG n'affiche qu'un gain minime en performance, tandis que pour un décalage important entre les domaines, les gains TTA sont plus faibles et dépendent des heuristiques utilisées, alors que les gains TTG sont plus importants et robustes aux choix architecturaux.