HyperAIHyperAI
il y a un jour

Apprentissage contrastif sélectif pour l'ancrage d'aptitudes sous supervision faible

WonJun Moon, Hyun Seok Seong, Jae-Pil Heo
Apprentissage contrastif sélectif pour l'ancrage d'aptitudes sous supervision faible
Résumé

Permettre à une entité d’interagir avec des objets nécessite d’identifier précisément les parties qui permettent des actions spécifiques. Le repérage des affordances sous supervision faible (WSAG, Weakly Supervised Affordance Grounding) vise à imiter l’apprentissage humain à partir de démonstrations en troisième personne, où les humains perçoivent intuitivement les parties fonctionnelles sans avoir besoin d’annotations au niveau des pixels. Pour atteindre cet objectif, le repérage est généralement appris à l’aide d’un classificateur partagé sur des images issues de différentes perspectives, combiné à des stratégies de distillation intégrant un processus de découverte des parties. Toutefois, comme les parties pertinentes pour les affordances ne sont pas toujours facilement identifiables, les modèles s’appuient principalement sur la classification, se concentrant souvent sur des motifs spécifiques aux classes courantes, qui sont en réalité sans lien direct avec les affordances. Pour surmonter cette limitation, nous allons au-delà de l’apprentissage isolé au niveau des parties en introduisant des objectifs contrastifs sélectifs basés sur des prototypes et des contrastes au niveau des pixels, permettant d’apprendre de manière adaptative des indices pertinents pour les affordances, à la fois au niveau des parties et au niveau des objets, selon le degré de granularité des informations disponibles. Initialement, nous identifions les objets associés à une action dans des images à point de vue égocentrique (axées sur l’objet) et exocentrique (exemples en troisième personne) en exploitant CLIP. En croisant les objets découverts à partir de ces perspectives complémentaires, nous extrayons précisément les indices au niveau des parties liés aux affordances dans chaque perspective. En apprenant de manière cohérente à distinguer les régions pertinentes pour les affordances du contexte arrière non pertinent, notre méthode déplace efficacement l’activation des régions inappropriées vers des indices significatifs liés aux affordances. Les résultats expérimentaux démontrent l’efficacité de notre approche. Le code est disponible à l’adresse github.com/hynnsk/SelectiveCL.