HyperAIHyperAI
il y a 2 mois

Trouver des Tubes d'Action

Georgia Gkioxari; Jitendra Malik
Trouver des Tubes d'Action
Résumé

Nous abordons le problème de la détection d'actions dans les vidéos. Guidés par les derniers progrès en matière de détection d'objets à partir d'images 2D, nous construisons des modèles d'action en utilisant des hiérarchies de caractéristiques riches issues des indices de forme et cinématiques. Nous intégrons l'apparence et le mouvement de deux manières. Premièrement, partant des propositions de régions d'image, nous sélectionnons celles qui sont salientes en termes de mouvement et qui ont donc plus de chances de contenir l'action. Cela entraîne une réduction significative du nombre de régions traitées et permet des calculs plus rapides. Deuxièmement, nous extrayons des représentations de caractéristiques spatio-temporelles pour construire des classifieurs robustes à l'aide de Réseaux Neuronaux Convolutifs (Convolutional Neural Networks). Nous relions nos prédictions pour produire des détections cohérentes dans le temps, que nous appelons tubes d'action. Nous montrons que notre approche surpasse les autres techniques dans la tâche de détection d'actions.

Trouver des Tubes d'Action | Articles de recherche récents | HyperAI