HyperAIHyperAI
il y a 13 jours

Résumé de jeu de données par K concepts principaux

Niv Cohen, Yedid Hoshen
Résumé de jeu de données par K concepts principaux
Résumé

Nous proposons une nouvelle tâche : l’identification des K concepts principaux pour la synthèse de jeux de données. L’objectif consiste à identifier un ensemble de K concepts qui expliquent le mieux la variation présente dans le jeu de données. Les concepts sont des termes de haut niveau, interprétables par l’humain, tels que « tigre », « kayak » ou « heureux ». Ces K concepts sont sélectionnés parmi une liste d’entrée potentielle (éventuellement longue) de candidats, que nous appelons la banque de concepts. Cette banque peut être extraite d’un dictionnaire général ou construite à partir de connaissances a priori spécifiques à la tâche. Une méthode d’embedding image-langage (par exemple CLIP) est utilisée pour projeter les images ainsi que la banque de concepts dans un espace de caractéristiques partagé. Pour sélectionner les K concepts qui expliquent le mieux les données, nous formulons notre problème comme un problème de localisation de facilities non capacités à K centres. Une technique d’optimisation efficace est mise en œuvre afin de rendre l’algorithme de recherche locale évolutive à des banques de concepts très grandes. La sortie de notre méthode est un ensemble de K concepts principaux qui synthétisent de manière explicite le jeu de données. Contrairement à la sélection de K images représentatives, souvent ambiguës, notre approche fournit une synthèse plus claire et interprétable. En tant qu’application complémentaire, les K concepts principaux peuvent être utilisés pour classifier le jeu de données en K groupes. Des expériences étendues démontrent l’efficacité de notre méthode.