Command Palette
Search for a command to run...
Communément inhabituel : la rareté sémantique dans la reconnaissance de situation
Communément inhabituel : la rareté sémantique dans la reconnaissance de situation
Yatskar Mark Ordonez Vicente Zettlemoyer Luke Farhadi Ali
Résumé
L’éparpillement sémantique constitue un défi courant dans les problèmes de classification visuelle structurée : lorsque l’espace de sortie est complexe, la grande majorité des prédictions possibles sont peu fréquentes, voire jamais observées dans les données d’apprentissage. Ce papier étudie l’éparpillement sémantique dans la reconnaissance de situations, tâche consistant à produire des résumés structurés de ce qui se passe dans une image, incluant les activités, les objets et les rôles joués par ces objets au sein des activités. Pour ce problème, nous constatons empiriquement que la plupart des combinaisons objet-rôle sont rares, et que les modèles actuellement les plus performants se démarquent significativement dans ce régime de données éparse. Nous réduisons nombre de ces erreurs en (1) introduisant une nouvelle fonction de composition tensorielle qui apprend à partager des exemples entre différentes combinaisons rôle-nom, et (2) en enrichissant sémantiquement nos données d’apprentissage par des exemples automatiquement collectés de sorties peu observées, à l’aide de données issues du web. Intégrée dans un modèle complet de prédiction structurée basé sur un CRF, l’approche tensorielle obtient une amélioration relative de 2,11 % et 4,40 % respectivement en précision top-5 pour les verbes et les combinaisons nom-rôle. L’ajout de 5 millions d’images via nos techniques d’enrichissement sémantique permet d’obtenir des améliorations relatives supplémentaires de 6,23 % et 9,57 % en précision top-5 pour les verbes et les combinaisons nom-rôle.