VideoMoCo : Apprentissage contrastif de représentations vidéo avec des exemples adverses temporels

MoCo s’avère efficace pour l’apprentissage non supervisé de représentations d’images. Dans cet article, nous proposons VideoMoCo, une méthode pour l’apprentissage non supervisé de représentations vidéo. Étant donné une séquence vidéo comme échantillon d’entrée, nous améliorons les représentations temporelles des caractéristiques de MoCo selon deux axes. Premièrement, nous introduisons un générateur qui supprime de manière temporelle plusieurs cadres de cet échantillon. Le discriminateur est ensuite entraîné à produire des représentations de caractéristiques similaires, indépendamment des cadres supprimés. En supprimant de manière adaptative des cadres différents au cours des itérations d’apprentissage adversaire, nous augmentons l’échantillon d’entrée afin d’entraîner un encodeur robuste au niveau temporel. Deuxièmement, nous utilisons un mécanisme de décroissance temporelle pour modéliser l’atténuation des clés dans la file mémoire lors du calcul de la perte contrastive. Étant donné que l’encodeur à mémoire glissante est mis à jour après l’ajout des clés, la capacité de représentation de ces dernières se dégrade lorsque nous utilisons l’échantillon d’entrée actuel pour l’apprentissage contrastif. Cette dégradation est prise en compte via une décroissance temporelle, qui accorde une plus grande attention aux clés récentes de la file par rapport à l’échantillon d’entrée. En conséquence, nous adaptons MoCo pour apprendre des représentations vidéo sans avoir à concevoir empiriquement des tâches prétextes. En renforçant la robustesse temporelle de l’encodeur et en modélisant la décroissance temporelle des clés, notre méthode VideoMoCo améliore de manière significative MoCo dans le cadre de l’apprentissage contrastif. Des expériences sur des jeux de données standard, notamment UCF101 et HMDB51, démontrent que VideoMoCo constitue une méthode de pointe pour l’apprentissage de représentations vidéo.