Atténuation des erreurs de sur-segmentation par la détection des frontières d'action

Nous proposons un cadre efficace pour la tâche de segmentation d’actions temporelles, nommé Action Segment Refinement Framework (ASRF). Notre architecture de modèle repose sur un extracteur de caractéristiques à long terme ainsi que sur deux branches : la branche de segmentation d’actions (ASB) et la branche de régression des frontières (BRB). L’extracteur de caractéristiques à long terme fournit des caractéristiques partagées aux deux branches grâce à un champ réceptif temporel étendu. La branche ASB classe les cadres vidéo selon des catégories d’actions, tandis que la branche BRB prédit les probabilités de frontières d’actions. Les frontières d’actions prédites par la BRB permettent de raffiner les sorties de la ASB, entraînant ainsi une amélioration significative des performances. Nos contributions sont triples : (i) Nous proposons un cadre pour la segmentation d’actions temporelles, l’ASRF, qui décompose cette tâche en une classification d’actions par cadre et une régression des frontières d’actions. Notre cadre affine les hypothèses au niveau des cadres en matière de catégories d’actions à l’aide des frontières d’actions prédites. (ii) Nous proposons une fonction de perte pour lisser la transition des probabilités d’actions, et analysons différentes combinaisons de fonctions de perte pour la segmentation d’actions temporelles. (iii) Notre cadre surpasser les méthodes de pointe sur trois jeux de données exigeants, offrant une amélioration allant jusqu’à 13,7 % en distance d’édition segmentale et jusqu’à 16,1 % en score F1 segmental. Le code source sera bientôt mis à disposition publiquement.