ASPnet : Segmentation d'actions avec représentation partagée-privée de multiples sources de données

La plupart des méthodes les plus avancées pour la segmentation d’actions reposent sur une seule modalité d’entrée ou sur une fusion naïve de plusieurs sources de données. Toutefois, une fusion efficace d’informations complémentaires peut potentiellement renforcer les modèles de segmentation, les rendant plus robustes aux perturbations dues aux capteurs et plus précis même avec de petits jeux de données d’entraînement. Afin d’améliorer l’apprentissage de représentations multimodales pour la segmentation d’actions, nous proposons de désentrelacer les caractéristiques cachées d’un modèle de segmentation à plusieurs flux en deux composantes : des composantes partagées entre modalités, contenant des informations communes aux différentes sources, et des composantes privées, propres à chaque modalité. Nous utilisons ensuite un goulot d’étranglement à attention pour capturer les dépendances temporelles à longue portée dans les données, tout en préservant le désentrelacement au sein des couches de traitement successives. Les évaluations sur les jeux de données 50Salads, Breakfast et RARP45 montrent que notre approche multimodale surpasser différentes méthodes de fusion de données, tant sur des sources de données multivues que multimodales, en obtenant des résultats compétitifs ou supérieurs à ceux des états de l’art. De plus, notre modèle se révèle plus robuste aux bruits additifs provenant des capteurs et parvient à atteindre des performances comparables à celles des modèles vidéo forts, même avec des quantités réduites de données d’entraînement.