Communément Inusuel : La Sparsité Sémantique dans la Reconnaissance de Situations

La rareté sémantique est un défi courant dans les problèmes de classification visuelle structurée ; lorsque l'espace de sortie est complexe, la grande majorité des prédictions possibles sont rarement, voire jamais, observées dans l'ensemble d'entraînement. Cet article étudie la rareté sémantique dans le cadre de la reconnaissance de situations, tâche consistant à produire des résumés structurés de ce qui se passe dans les images, y compris les activités, les objets et les rôles que jouent ces objets au sein de l'activité. Pour ce problème, nous constatons empiriquement que la plupart des combinaisons objet-rôle sont rares, et que les modèles actuels de pointe sous-performent considérablement dans ce régime de données rares. Nous évitons de nombreuses erreurs en (1) introduisant une nouvelle fonction de composition tensorielle qui apprend à partager des exemples entre les combinaisons rôle-nom et (2) en augmentant sémantiquement nos données d'entraînement avec des exemples automatiquement collectés des sorties rarement observées à l'aide de données web. Lorsqu'intégrée dans un modèle complet de prédiction structurée basé sur un CRF (Conditional Random Field), l'approche tensorielle surpasses l'état actuel de l'art avec une amélioration relative de 2,11 % et 4,40 % en termes d'exactitude top-5 pour les verbes et les noms-rôles, respectivement. L'ajout de 5 millions d'images grâce à nos techniques d'augmentation sémantique apporte des améliorations relatives supplémentaires de 6,23 % et 9,57 % en termes d'exactitude top-5 pour les verbes et les noms-rôles.