Une poursuite de la précision temporelle dans la détection d'activités générales

La détection d'activités dans des vidéos non tronquées est une tâche importante mais difficile. Les performances des méthodes existantes restent insatisfaisantes, par exemple, elles rencontrent souvent des difficultés pour localiser le début et la fin d'une action longue et complexe. Dans cet article, nous proposons un cadre générique capable de détecter avec précision une large variété d'activités à partir de vidéos non tronquées. Notre première contribution est un nouveau schéma de proposition qui peut générer efficacement des candidats avec des limites temporelles précises. La deuxième contribution est une pipeline de classification en cascade qui distingue explicitement entre la pertinence et l'exhaustivité d'une instance candidate. Sur deux jeux de données difficiles de détection d'activités temporelles, THUMOS14 et ActivityNet, le cadre proposé surpasse significativement les méthodes actuelles de pointe, démontrant une précision supérieure et une forte adaptabilité pour traiter des activités avec différentes structures temporelles.