Le classificateur négligé dans la reconnaissance des interactions homme-objet

La reconnaissance des interactions homme-objet (HOI) est un défi en raison de deux facteurs : (1) un déséquilibre important entre les classes et (2) la nécessité d’attribuer plusieurs étiquettes par image. Ce papier démontre que ces deux défis peuvent être efficacement surmontés en améliorant le classificateur sans modifier l’architecture principale (backbone). Premièrement, nous intégrons la corrélation sémantique entre les classes dans la tête de classification en initialisant les poids à partir des embeddings linguistiques des interactions HOI. Ce procédé permet une amélioration significative des performances, en particulier pour les sous-ensembles à faible nombre d’exemples (few-shot). Deuxièmement, nous proposons une nouvelle fonction de perte, nommée LSE-Sign, conçue pour renforcer l’apprentissage multi-étiquettes sur des jeux de données à distribution longue-taillée. Notre méthode simple mais efficace permet une classification HOI sans détection d’objets, surpassant clairement les états de l’art qui nécessitent une détection d’objets ou une estimation de posture humaine. En outre, nous transférons le modèle de classification vers une détection instance-level HOI en le couplant à un détecteur d’objets disponible commercialement. Nous atteignons un résultat de pointe sans nécessiter de fine-tuning supplémentaire.