Extraction des relations entre propositions inter-vidéos pour la détection d'objets dans les vidéos

Des études récentes ont montré qu’agréger le contexte provenant des propositions issues de différentes trames peut nettement améliorer les performances de la détection d’objets dans les vidéos. Toutefois, ces approches exploitent principalement les relations intra-propositions au sein d’une même vidéo, tout en ignorant les relations intra-propositions entre différentes vidéos, qui pourraient pourtant fournir des indices discriminatifs essentiels pour reconnaître des objets ambigus. Pour surmonter cette limitation, nous proposons un nouveau module, le module de relation inter-videos entre propositions. Fondé sur un schéma succinct de sélection hiérarchique de triplets, ce module permet d’apprendre des représentations d’objets efficaces en modélisant les relations entre propositions difficiles issues de vidéos différentes. En outre, nous avons conçu un réseau hiérarchique de relations vidéo (HVR-Net), en intégrant de manière hiérarchique les relations intra-videos et inter-videos entre propositions. Cette architecture permet d’exploiter progressivement à la fois les contextes intra et inter-videos afin d’améliorer la détection d’objets dans les vidéos. Nous avons évalué notre méthode sur le grand benchmark de détection d’objets dans les vidéos, ImageNet VID, où HVR-Net atteint des résultats de l’état de l’art (SOTA). Les codes et modèles seront publiés ultérieurement.