MiniROAD : Cadre RNN Minimal pour la Détection en Ligne d'Actions

La détection d’actions en ligne (OAD) consiste à identifier des actions dans des vidéos en flux sans accès aux trames futures. De nombreux efforts ont été déployés pour capturer efficacement les dépendances à long terme, les transformateurs ayant retenu l’attention en raison de leur capacité à modéliser les structures temporelles à longue portée. En revanche, les réseaux de neurones récurrents (RNN) ont reçu moins d’attention récemment, en raison de leur performance inférieure par rapport aux méthodes plus récentes basées sur les transformateurs. Dans ce papier, nous explorons les raisons fondamentales de la faible performance des RNN par rapport aux algorithmes basés sur les transformateurs. Nos résultats indiquent que le désalignement entre l’entraînement et l’inférence constitue l’obstacle principal à une formation efficace des RNN. Pour remédier à ce problème, nous proposons d’appliquer des poids non uniformes au loss calculé à chaque étape temporelle, ce qui permet au modèle RNN d’apprendre à partir de prédictions effectuées dans un environnement plus proche de celui de l’inférence. Des expériences étendues sur trois jeux de données standard — THUMOS, TVSeries et FineAction — démontrent qu’un modèle RNN minimal entraîné avec la méthode proposée atteint des performances égales ou supérieures aux meilleures méthodes existantes, tout en offrant une amélioration significative de l’efficacité. Le code est disponible à l’adresse suivante : https://github.com/jbistanbul/MiniROAD.