Distillation de connaissances privilégiées pour la détection en ligne d'actions

La détection en ligne d'actions (OAD) dans les vidéos est proposée comme une tâche de labellisation par image pour répondre aux problèmes de prédiction en temps réel ne pouvant obtenir que les images vidéo précédentes et actuelles. Cet article présente un cadre novateur basé sur l'apprentissage avec des informations privilégiées pour la détection en ligne d'actions, où les images futures, observables uniquement lors des phases d'entraînement, sont considérées comme une forme d'informations privilégiées. La distillation de connaissances est utilisée pour transférer ces informations privilégiées du modèle enseignant hors ligne au modèle étudiant en ligne. Nous soulignons que ce cadre diffère des méthodes de distillation de connaissances conventionnelles car la différence entre les modèles enseignant et étudiant réside principalement dans les données d'entrée plutôt que dans l'architecture du réseau. Nous proposons la Distillation de Connaissances Privilégiées (PKD), qui (i) programme une procédure d'apprentissage par curriculum et (ii) insère des nœuds auxiliaires dans le modèle étudiant, afin de réduire l'écart d'information et d'améliorer les performances d'apprentissage. Comparée à d'autres méthodes OAD qui prévoient explicitement les images futures, notre approche évite d'apprendre des contenus visuels imprévisibles, inutiles et incohérents, tout en atteignant une précision de pointe sur deux benchmarks OAD populaires, TVSeries et THUMOS14.