HyperAIHyperAI
il y a 2 mois

Tissu Social : Compositions de Tubelets pour la Détection des Relations Vidéo

Shuo Chen; Zenglin Shi; Pascal Mettes; Cees G. M. Snoek
Tissu Social : Compositions de Tubelets pour la Détection des Relations Vidéo
Résumé

Ce travail vise à classer et détecter la relation entre les tubelets d'objets apparaissant dans une vidéo sous forme de triplet <sujet-verbe-objet>. Alors que les travaux existants traitent les propositions d'objets ou les tubelets comme des entités uniques et modélisent leurs relations a posteriori, nous proposons de classifier et de détecter les prédicats pour des paires de tubelets d'objets a priori. Nous introduisons également le Social Fabric : une encodage qui représente une paire de tubelets d'objets comme une composition de primitives d'interaction. Ces primitives sont apprises sur l'ensemble des relations, ce qui permet d'obtenir une représentation compacte capable de localiser et classer les relations parmi l'ensemble des tubelets d'objets co-occurrents à travers toutes les périodes temporelles d'une vidéo. L'encodage permet à notre réseau en deux étapes de fonctionner. Dans la première étape, nous formons le Social Fabric à suggérer des propositions qui sont susceptibles d'interagir. Dans la deuxième étape, nous utilisons le Social Fabric pour affiner simultanément et prédire les étiquettes de prédicat pour les tubelets. Les expériences démontrent l'avantage du modèle précoce des relations vidéo, notre encodage et l'architecture en deux étapes, conduisant à un nouveau niveau d'excellence sur deux benchmarks. Nous montrons également comment l'encodage permet une recherche par exemple de primitive spatio-temporelle dans les relations vidéo. Code : https://github.com/shanshuo/Social-Fabric.

Tissu Social : Compositions de Tubelets pour la Détection des Relations Vidéo | Articles de recherche récents | HyperAI