HyperAIHyperAI
il y a 2 mois

Visual Prompting pour la Segmentation Few-shot Généralisée : Une Approche Multi-échelle

Hossain, Mir Rayat Imtiaz ; Siam, Mennatullah ; Sigal, Leonid ; Little, James J.
Visual Prompting pour la Segmentation Few-shot Généralisée : Une Approche Multi-échelle
Résumé

L'émergence des modèles de transformateur basés sur l'attention a conduit à leur utilisation extensive dans diverses tâches, en raison de leurs propriétés supérieures de généralisation et de transfert. Des recherches récentes ont démontré que ces modèles, lorsqu'ils sont correctement stimulés, sont excellents pour l'inférence à faible échantillonnage (few-shot inference). Cependant, ces techniques sont peu explorées pour les tâches de prédiction dense comme la segmentation sémantique. Dans ce travail, nous examinons l'efficacité de la stimulation d'un décodeur de transformateur avec des stimuli visuels appris pour la tâche de segmentation à faible échantillonnage généralisée (GFSS). Notre objectif est d'atteindre une performance élevée non seulement sur des catégories nouvelles avec peu d'exemples, mais aussi de maintenir la performance sur les catégories de base. Nous proposons une approche pour apprendre des stimuli visuels avec peu d'exemples. Ces stimuli visuels appris sont utilisés pour stimuler un décodeur de transformateur multi-échelle afin de faciliter des prédictions denses précises. De plus, nous introduisons un mécanisme d'attention causale unidirectionnelle entre les stimuli nouveaux, appris avec peu d'exemples, et les stimuli de base, appris avec beaucoup de données. Ce mécanisme enrichit les stimuli nouveaux sans détériorer la performance des classes de base. Dans l'ensemble, cette forme de stimulation nous permet d'atteindre des performances state-of-the-art pour le GFSS sur deux ensembles de données基准 (benchmarks) différents : COCO-$20^i$ et Pascal-$5^i$, sans nécessiter une optimisation au moment du test (ou transduction). De plus, l'optimisation au moment du test en utilisant des données test non étiquetées peut être utilisée pour améliorer les stimuli, que nous appelons ajustement transductif des prompts.Note: "基准" should be "benchmarks" in the context of the sentence. Here is the corrected version:Dans l'ensemble, cette forme de stimulation nous permet d'atteindre des performances state-of-the-art pour le GFSS sur deux ensembles de données benchmarks différents : COCO-$20^i$ et Pascal-$5^i$, sans nécessiter une optimisation au moment du test (ou transduction). De plus, l'optimisation au moment du test en utilisant des données test non étiquetées peut être utilisée pour améliorer les stimuli, que nous appelons ajustement transductif des prompts.

Visual Prompting pour la Segmentation Few-shot Généralisée : Une Approche Multi-échelle | Articles de recherche récents | HyperAI