HyperAIHyperAI
il y a 11 jours

Réseaux distribués temporellement pour la segmentation sémantique vidéo rapide

Ping Hu, Fabian Caba Heilbron, Oliver Wang, Zhe Lin, Stan Sclaroff, Federico Perazzi
Réseaux distribués temporellement pour la segmentation sémantique vidéo rapide
Résumé

Nous présentons TDNet, un réseau temporellement distribué conçu pour une segmentation sémantique vidéo rapide et précise. Nous observons que les caractéristiques extraites à partir d’un certain niveau élevé d’un réseau neuronal profond (CNN) peuvent être approximées en combinant les caractéristiques issues de plusieurs sous-réseaux plus légers. En exploitant la continuité temporelle intrinsèque des vidéos, nous répartissons ces sous-réseaux sur des trames séquentielles. Ainsi, à chaque instant, il suffit d’effectuer un calcul léger pour extraire un groupe de sous-caractéristiques à partir d’un seul sous-réseau. Les caractéristiques complètes utilisées pour la segmentation sont ensuite reconstituées grâce à un nouveau module de propagation d’attention, qui compense les déformations géométriques entre trames. Une perte de distillation de connaissances regroupée est également introduite afin d’améliorer davantage la capacité de représentation aux niveaux complet et sous-caractéristique. Des expériences sur les jeux de données Cityscapes, CamVid et NYUD-v2 montrent que notre méthode atteint une précision de pointe tout en offrant une vitesse significativement plus élevée et une latence réduite.

Réseaux distribués temporellement pour la segmentation sémantique vidéo rapide | Articles de recherche récents | HyperAI