Segmentation sémantique vidéo efficace avec inférence par trame

Pour la segmentation sémantique, la plupart des modèles profonds en temps réel existants, entraînés frame par frame de manière indépendante, peuvent produire des résultats incohérents au sein d'une séquence vidéo. Les méthodes avancées prennent en compte les corrélations présentes dans la séquence vidéo, par exemple en propagant les résultats vers les frames voisines à l’aide du flux optique, ou en extrayant les représentations des frames en s’appuyant sur d’autres frames, ce qui peut entraîner des résultats peu précis ou une latence déséquilibrée. Dans ce travail, nous traitons la segmentation sémantique vidéo de manière efficace selon une approche par frame pendant le processus d’inférence. Contrairement aux modèles précédents basés sur une traitement par frame, nous considérons explicitement la cohérence temporelle entre les frames comme une contrainte supplémentaire durant l’entraînement, et intégrons cette cohérence directement dans le réseau de segmentation. Ainsi, pendant l’inférence, chaque frame peut être traitée indépendamment, sans latence, tout en améliorant la cohérence temporelle sans coût computationnel supplémentaire ni post-traitement. Nous utilisons des modèles compacts pour garantir une exécution en temps réel. Pour réduire l’écart de performance entre les modèles compacts et les modèles volumineux, nous proposons de nouvelles méthodes de distillation de connaissances. Nos résultats surpassent les méthodes précédentes basées sur les frames-clés, offrant un meilleur compromis entre précision et vitesse d’inférence sur des benchmarks populaires tels que Cityscapes et CamVid. La cohérence temporelle est également améliorée par rapport aux modèles de référence entraînés de manière indépendante par frame. Le code est disponible à l’adresse suivante : https://tinyurl.com/segment-video