HyperAIHyperAI
il y a 9 jours

Réseau de convolution temporelle multimodal pour l'anticipation d'actions dans des vidéos égocentriques

Olga Zatsarynna, Yazan Abu Farha, Juergen Gall
Réseau de convolution temporelle multimodal pour l'anticipation d'actions dans des vidéos égocentriques
Résumé

Anticiper les actions humaines est une tâche cruciale à résoudre pour le développement d’agents intelligents fiables, tels que les voitures autonomes ou les assistants robotiques. Bien que la capacité à effectuer des prédictions futures avec une haute précision soit essentielle pour concevoir des méthodes d’anticipation, la vitesse à laquelle ces prédictions sont réalisées n’est pas moins importante. Les méthodes précises mais trop lentes introduisent une latence élevée dans le processus décisionnel, ce qui augmente le temps de réaction du système sous-jacent. Ce problème est particulièrement critique dans des domaines comme la conduite autonome, où le temps de réaction est déterminant. Dans ce travail, nous proposons une architecture multi-modale simple et efficace fondée sur des convolutions temporelles. Notre approche empile une hiérarchie de couches de convolution temporelle sans recourir à des couches récurrentes, afin d’assurer une prédiction rapide. Nous introduisons également un mécanisme de fusion multi-modale permettant de capturer les interactions par paires entre les modalités RGB, flux optique et objets. Les résultats obtenus sur deux grands jeux de données vidéo égocentriques, EPIC-Kitchens-55 et EPIC-Kitchens-100, montrent que notre méthode atteint des performances comparables aux approches les plus avancées tout en étant significativement plus rapide.