HyperAIHyperAI
il y a 11 jours

Réseau de déchiffrement de polysemy pour une détection robuste des interactions homme-objet

Xubin Zhong, Changxing Ding, Xian Qu, Dacheng Tao
Réseau de déchiffrement de polysemy pour une détection robuste des interactions homme-objet
Résumé

La détection d'interactions homme-objet (HOI) est essentielle pour les tâches d'interprétation de scènes centrées sur l'humain. Les travaux existants supposent généralement que le même verbe présente des caractéristiques visuelles similaires dans différentes catégories HOI, une approche qui ignore les significations sémantiques diverses que peut avoir un verbe. Pour résoudre ce problème, nous proposons dans cet article un nouveau réseau, appelé PD-Net (Polysemy Deciphering Network), qui décode la polysemie visuelle des verbes pour la détection HOI de trois manières distinctes. Premièrement, nous améliorons les caractéristiques pour la détection HOI afin qu’elles soient sensibles à la polysemie, grâce à deux nouveaux modules : l’attention canal guidée par les priorités linguistiques (LPCA) et l’augmentation de caractéristiques basée sur les priorités linguistiques (LPFA). Le module LPCA met en évidence les éléments importants des caractéristiques d’apparence humaine et d’objet pour chaque catégorie HOI à identifier ; par ailleurs, le module LPFA enrichit les caractéristiques de posture humaine et spatiales en utilisant des priorités linguistiques, permettant ainsi aux classificateurs de verbes de recevoir des indices linguistiques qui réduisent la variation intra-classe pour un même verbe. Deuxièmement, nous introduisons un nouveau module de fusion de modalités sensible à la polysemie (PAMF), qui guide PD-Net à prendre des décisions en fonction des types de caractéristiques jugés plus importants selon les priorités linguistiques. Troisièmement, nous proposons de réduire le problème de polysemie des verbes en partageant les classificateurs de verbes entre des catégories HOI sémantiquement similaires. En outre, afin d’accélérer la recherche sur le problème de la polysemie des verbes, nous avons construit un nouveau jeu de données de référence, nommé HOI-VerbPolysemy (HOIVP), qui inclut des verbes courants (prédicats) présentant des significations sémantiques diverses dans le monde réel. Enfin, en déchiffrant la polysemie visuelle des verbes, notre approche obtient des performances nettement supérieures aux méthodes de pointe sur les bases de données HICO-DET, V-COCO et HOI-VP. Le code et les données de cet article sont disponibles à l’adresse suivante : https://github.com/MuchHair/PD-Net.

Réseau de déchiffrement de polysemy pour une détection robuste des interactions homme-objet | Articles de recherche récents | HyperAI