HyperAIHyperAI
il y a 15 jours

Réseau de convolution temporelle à multi-résolution et passage de grossier à fin

Dipika Singhania, Rahul Rahaman, Angela Yao
Réseau de convolution temporelle à multi-résolution et passage de grossier à fin
Résumé

Les réseaux de convolution temporelle (TCN) constituent une architecture couramment utilisée pour la segmentation temporelle des vidéos. Toutefois, ces modèles sont sujets à des erreurs de sur-segmentation et nécessitent généralement des modules de raffinement supplémentaires afin d’assurer une lisibilité et une cohérence temporelle adéquates. Dans ce travail, nous proposons une nouvelle architecture d’encodeur-décodage temporel afin de remédier au problème de fragmentation de séquence. Plus précisément, le décodeur adopte une structure de grossier à fin, intégrant implicitement un ensemble de multiples résolutions temporelles. Ce mécanisme d’ensemblage permet d’obtenir des segmentation plus lisses, plus précises et mieux calibrées, tout en éliminant la nécessité de modules de raffinement supplémentaires. En outre, nous améliorons notre processus d’entraînement grâce à une stratégie d’augmentation de caractéristiques multi-résolution, visant à renforcer la robustesse face à des résolutions temporelles variables. Enfin, afin de soutenir notre architecture et de favoriser une meilleure cohérence temporelle, nous introduisons une nouvelle fonction de perte d’action qui pénalise les erreurs de classification au niveau de la vidéo. Les expériences montrent que notre architecture autonome, combinée à notre stratégie novatrice d’augmentation de caractéristiques et à notre nouvelle fonction de perte, surpassent l’état de l’art sur trois benchmarks de segmentation temporelle vidéo.

Réseau de convolution temporelle à multi-résolution et passage de grossier à fin | Articles de recherche récents | HyperAI