Apprentissage prétexte-contraste : Vers de bonnes pratiques dans l'apprentissage non supervisé de la représentation vidéo

Récemment, des méthodes basées sur des tâches prétextes sont proposées successivement dans l'apprentissage non supervisé de caractéristiques vidéo. Parallèlement, les méthodes d'apprentissage par contraste ont également montré de bonnes performances. Généralement, les nouvelles méthodes surpassent leurs prédécesseurs en affirmant qu'elles peuvent capturer des informations temporelles « meilleures ». Cependant, il existe des différences de configuration entre elles, ce qui rend difficile la conclusion sur laquelle est supérieure. Une comparaison serait beaucoup plus convaincante si ces méthodes avaient atteint le plus près possible de leurs limites de performance. Dans cet article, nous partons d'une ligne de base basée sur une tâche prétexte et explorons jusqu'où elle peut aller en la combinant avec l'apprentissage par contraste, le prétraitement des données et l'augmentation des données. Un paramétrage approprié a été trouvé à partir d'expériences approfondies, permettant d'obtenir d'énormes améliorations par rapport aux lignes de base, ce qui indique qu'un cadre d'optimisation conjoint peut renforcer à la fois la tâche prétexte et l'apprentissage par contraste. Nous désignons ce cadre d'optimisation conjoint comme Apprentissage Prétexte-Contraste (PCL). Les deux autres lignes de base basées sur des tâches prétextes sont utilisées pour valider l'efficacité du PCL. Et nous pouvons facilement surpasser les méthodes actuelles les plus performantes avec le même protocole d'entraînement, démontrant ainsi l'efficacité et la généralité de notre proposition. Il est commode de considérer le PCL comme une stratégie d'entraînement standard et de l'appliquer à de nombreux autres travaux dans le domaine de l'apprentissage non supervisé de caractéristiques vidéo.