Aggrégation doublement déformable de matrices de covariance pour la segmentation en peu d'exemples

L'entraînement de modèles de segmentation sémantique à partir de peu d'échantillons annotés présente un grand potentiel dans diverses applications du monde réel. Pour la tâche de segmentation en peu de données (few-shot segmentation), le défi principal réside dans la mesure précise de la correspondance sémantique entre les échantillons de support et les échantillons de requête, dans un cadre de données d'entraînement limitées. Pour relever ce défi, nous proposons d'agréger des matrices de covariance apprenables à l'aide d'un Transformer déformable 4D afin de prédire efficacement la carte de segmentation. Plus précisément, dans ce travail, nous introduisons tout d'abord un nouveau mécanisme d'extraction d'exemples difficiles permettant d'apprendre des noyaux de covariance pour un processus gaussien. Les noyaux de covariance appris présentent des avantages significatifs par rapport aux méthodes existantes basées sur la similarité cosinus pour la mesure de correspondance. Sur la base de ces noyaux de covariance appris, nous concevons un module de Transformer 4D doublement déformable, efficace, qui agrège de manière adaptative les cartes de similarité des caractéristiques pour produire les résultats de segmentation. En combinant ces deux approches, la méthode proposée atteint non seulement de nouveaux records sur des benchmarks publics, mais converge également de manière extrêmement rapide par rapport aux méthodes existantes. Des expériences menées sur trois jeux de données publics démontrent l'efficacité de notre approche.