HyperAIHyperAI
il y a 3 mois

RLIP : Pré-entraînement relationnel langage-image pour la détection d'interactions homme-objet

Hangjie Yuan, Jianwen Jiang, Samuel Albanie, Tao Feng, Ziyuan Huang, Dong Ni, Mingqian Tang
RLIP : Pré-entraînement relationnel langage-image pour la détection d'interactions homme-objet
Résumé

La tâche de détection des interactions homme-objet (HOI) vise à effectuer une analyse visuelle fine des interactions entre les humains et leur environnement, ouvrant ainsi la voie à une large gamme d'applications. Les travaux antérieurs ont démontré les avantages d'une conception efficace d'architecture ainsi que de l'intégration de signaux pertinents pour améliorer la précision de la détection HOI. Toutefois, la conception d'une stratégie de pré-entraînement appropriée pour cette tâche reste largement sous-explorée par les approches existantes. Pour combler cet écart, nous proposons une stratégie d'entraînement préalable par contraste basée sur les relations linguistiques et visuelles, appelée RLIP (Relational Language-Image Pre-training), qui exploite à la fois les descriptions d'entités et celles des relations. Afin d'exploiter pleinement ce pré-entraînement, nous apportons trois contributions techniques : (1) une nouvelle architecture, ParSe (Parallel entity detection and Sequential relation inference), qui permet d'utiliser simultanément les descriptions d'entités et de relations durant un pré-entraînement optimisé de manière holistique ; (2) un cadre de génération de données synthétiques, nommé Label Sequence Extension, qui augmente l'échelle des données linguistiques disponibles dans chaque mini-batch ; (3) des mécanismes pour gérer l'ambiguïté, notamment les étiquettes de qualité des relations et les pseudo-étiquettes de relations, afin de réduire l'influence des échantillons ambigus ou bruités présents dans les données de pré-entraînement. À travers des expérimentations étendues, nous démontrons les bénéfices de ces contributions, regroupées sous le nom de RLIP-ParSe, qui améliorent significativement les performances en détection HOI en situation zero-shot, few-shot et après fine-tuning, tout en augmentant la robustesse face à des annotations bruitées. Le code sera mis à disposition à l'adresse suivante : https://github.com/JacobYuan7/RLIP.