HyperAIHyperAI
il y a 2 mois

Apprentissage faiblement supervisé des relations visuelles

Julia Peyre; Ivan Laptev; Cordelia Schmid; Josef Sivic
Apprentissage faiblement supervisé des relations visuelles
Résumé

Ce papier présente une nouvelle approche pour modéliser les relations visuelles entre des paires d'objets. Nous appelons relation un triplet de la forme (sujet, prédicat, objet), où le prédicat est généralement une préposition (par exemple, « sous », « devant ») ou un verbe (« tenir », « monter ») qui lie une paire d'objets (sujet, objet). L'apprentissage de telles relations est difficile car les objets présentent différentes configurations spatiales et apparences en fonction de la relation dans laquelle ils se trouvent. Un autre défi majeur provient de la difficulté à obtenir des annotations, en particulier au niveau des boîtes englobantes, pour tous les triplets possibles, ce qui rend l'apprentissage et l'évaluation complexes. Les contributions de cet article sont triples. Premièrement, nous concevons des caractéristiques visuelles puissantes mais flexibles qui codent l'apparence et la configuration spatiale pour des paires d'objets. Deuxièmement, nous proposons un modèle de clustering discriminatif faiblement supervisé pour apprendre les relations à partir de labels au niveau de l'image uniquement. Troisièmement, nous introduisons un nouveau jeu de données complexe comprenant des relations inhabituelles (UnRel) accompagné d'une annotation exhaustive, permettant une évaluation précise de la recherche de relations visuelles. Nous montrons expérimentalement que notre modèle donne des résultats d'état de l'art sur le jeu de données des relations visuelles, améliorant considérablement les performances sur les relations jamais vues auparavant (apprentissage par zéro-shot), et nous confirmons cette observation sur notre nouveau jeu de données UnRel.

Apprentissage faiblement supervisé des relations visuelles | Articles de recherche récents | HyperAI