Distillation Delta pour un traitement vidéo efficace

Cette étude vise à accélérer le traitement des flux vidéo, tels que la détection d'objets et la segmentation sémantique, en exploitant les redondances temporelles présentes entre les cadres vidéo. Contrairement aux approches classiques basées sur l’alignement motionnel, comme le flux optique, pour propager et déformer les caractéristiques, nous proposons un nouveau schéma de distillation de connaissances baptisé Delta Distillation. Dans notre approche, l’élève apprend les variations des caractéristiques intermédiaires du professeur au fil du temps. Nous démontrons que ces variations temporelles peuvent être efficacement transférées grâce aux redondances temporelles inhérentes aux séquences vidéo. Lors de l’inférence, le professeur et l’élève coopèrent pour produire des prédictions : le premier fournit des représentations initiales extraites uniquement à partir des cadres-clés, tandis que le second est chargé d’estimer itérativement et d’appliquer des deltas aux cadres successifs. En outre, nous examinons diverses options de conception afin d’optimiser l’architecture de l’élève, y compris une recherche d’architecture apprenable en boucle complète (end-to-end). À travers des expériences approfondies menées sur une large gamme d’architectures, y compris les plus efficaces, nous montrons que la Delta Distillation établit un nouveau état de l’art en matière d’équilibre entre précision et efficacité pour la segmentation sémantique et la détection d’objets dans les vidéos. Enfin, nous démontrons, en tant que conséquence secondaire, que la Delta Distillation améliore la cohérence temporelle du modèle professeur.