HyperAIHyperAI
il y a 2 mois

Que regarder et quand ? : Réseau de proposition d’étendue temporelle pour la détection de relations vidéo

Sangmin Woo; Junhyug Noh; Kangil Kim
Que regarder et quand ? : Réseau de proposition d’étendue temporelle pour la détection de relations vidéo
Résumé

L'identification des relations entre les objets est essentielle à la compréhension de la scène. Bien que plusieurs travaux aient été proposés pour le modèle de relations dans le domaine des images, il y avait de nombreuses contraintes dans le domaine vidéo en raison des dynamiques complexes des interactions spatio-temporelles (par exemple, entre quels objets existe-t-il une interaction ? quand commencent et se terminent les relations ?). À ce jour, deux méthodes représentatives ont été proposées pour aborder la Détection Visuelle des Relations Vidéo (VidVRD) : basée sur les segments et basée sur les fenêtres. Nous soulignons d'abord les limites de ces méthodes et proposons une nouvelle approche nommée Réseau de Proposition d'Étendue Temporelle (TSPN). Le TSPN indique quoi regarder : il réduit l'espace de recherche des relations en évaluant la probabilité d'existence d'une relation entre un couple d'objets. Le TSPN indique quand regarder : il prédit simultanément les horodatages de début-fin (c'est-à-dire les étendues temporelles) et les catégories de toutes les relations possibles en utilisant le contexte complet de la vidéo. Ces deux conceptions permettent une situation gagnant-gagnant : elles accélèrent l'entraînement par au moins 2 fois par rapport aux méthodes existantes et obtiennent des performances compétitives sur deux benchmarks VidVRD (ImageNet-VidVDR et VidOR). De plus, des expériences ablatives exhaustives démontrent l'efficacité de notre approche. Les codes sont disponibles à l'adresse suivante : https://github.com/sangminwoo/Temporal-Span-Proposal-Network-VidVRD.

Que regarder et quand ? : Réseau de proposition d’étendue temporelle pour la détection de relations vidéo | Articles de recherche récents | HyperAI