Apprentissage de la complétude des actions à partir de points pour la localisation temporelle des actions à supervision faible

Nous abordons le problème de la localisation des intervalles temporels d’actions, en ne disposant pour chaque instance d’action que d’une seule étiquette de cadre pendant l’entraînement. En raison de la rareté des étiquettes, les méthodes existantes échouent à apprendre la complétude des actions, conduisant à des prédictions fragmentaires. Dans cet article, nous proposons un cadre novateur où des pseudo-étiquettes denses sont générées afin de guider le modèle vers une meilleure compréhension de la complétude. Plus précisément, nous sélectionnons tout d’abord des points pseudo-arrière-plan afin de compléter les étiquettes ponctuelles d’actions. Ensuite, en prenant ces points comme graines, nous recherchons la séquence optimale susceptible de contenir des instances d’actions complètes tout en étant cohérente avec les graines. Pour apprendre la complétude à partir de la séquence obtenue, nous introduisons deux nouvelles fonctions de perte qui contrastent les instances d’actions avec les arrière-plans respectivement en termes de score d’action et de similarité de caractéristiques. Les résultats expérimentaux démontrent que cette guidance en complétude aide effectivement le modèle à localiser des instances d’actions complètes, entraînant des gains de performance importants, en particulier sous des seuils élevés d’IoU. En outre, nous montrons l’avantage de notre méthode par rapport aux méthodes de pointe existantes sur quatre benchmarks : THUMOS’14, GTEA, BEOID et ActivityNet. Notamment, notre méthode atteint des performances comparables à celles des méthodes entièrement supervisées récentes, tout en nécessitant un coût d’étiquetage six fois inférieur. Notre code est disponible à l’adresse suivante : https://github.com/Pilhyeon.