Localisation temporelle d’actions par apprentissage faiblement supervisé basée sur la modélisation de l’incertitude

La localisation temporelle d’actions faiblement supervisée vise à apprendre à détecter les intervalles temporels correspondant à des classes d’actions à l’aide uniquement d’étiquettes au niveau de la vidéo. À cette fin, il est essentiel de distinguer les cadres appartenant à des classes d’actions des cadres de fond (c’est-à-dire les cadres n’appartenant à aucune classe d’action). Dans cet article, nous proposons une nouvelle perspective sur les cadres de fond, en les modélisant comme des échantillons hors distribution en raison de leur incohérence. Ces cadres de fond peuvent ainsi être détectés en estimant la probabilité qu’un cadre soit hors distribution, notion connue sous le nom d’incertitude. Toutefois, il est impossible d’apprendre directement l’incertitude sans étiquettes au niveau du cadre. Pour réaliser l’apprentissage de l’incertitude dans un cadre faiblement supervisé, nous exploitons la formulation d’apprentissage par instances multiples (Multiple Instance Learning, MIL). En outre, nous introduisons une perte d’entropie du fond afin de mieux distinguer les cadres de fond en encourageant leurs probabilités d’appartenance à la distribution (c’est-à-dire les probabilités d’appartenance à une action) à être uniformément réparties sur toutes les classes d’actions. Les résultats expérimentaux montrent que notre modélisation de l’incertitude est efficace pour atténuer l’interférence des cadres de fond et apporte une amélioration significative des performances, sans recourir à des artifices supplémentaires. Nous démontrons que notre modèle surpasse de manière significative les méthodes de pointe sur les benchmarks THUMOS’14 et ActivityNet (1.2 et 1.3). Notre code est disponible à l’adresse suivante : https://github.com/Pilhyeon/WTAL-Uncertainty-Modeling.