La segmentation d’actions faiblement supervisée est-elle prête pour l’interaction homme-robot ? Non, améliorons-la grâce à l’apprentissage par union d’actions
La segmentation d’actions joue un rôle crucial dans la capacité des robots à comprendre automatiquement les activités humaines. Pour entraîner un modèle de reconnaissance d’actions, bien que l’annotation des étiquettes d’actions pour toutes les trames soit coûteuse, l’étiquetage des timestamps pour une supervision faible s’avère économiquement plus avantageux. Toutefois, les méthodes existantes ne parviennent pas toujours à exploiter pleinement les étiquettes de timestamps, ce qui entraîne des performances insuffisantes. Afin de pallier ce problème, nous proposons dans notre phase d’entraînement un nouveau schéma d’apprentissage, visant à maximiser la probabilité de l’union d’actions associée aux timestamps voisins pour les trames non étiquetées. Durant la phase d’inférence, nous introduisons une nouvelle solution de raffinement permettant de générer des classes d’actions assignées de manière rigide (hard-assigned) de meilleure qualité à partir de prédictions assignées de manière souple (soft-assigned). Notamment, nos méthodes sont indépendantes du modèle et peuvent être facilement intégrées aux cadres existants. Sur trois jeux de données couramment utilisés pour la segmentation d’actions, notre approche surpasser les méthodes antérieures basées sur une supervision par timestamps et atteint de nouveaux états de l’art. En outre, notre méthode nécessite moins de 1 % des étiquettes entièrement supervisées pour obtenir des résultats comparables, voire supérieurs.