HyperAIHyperAI
il y a 2 mois

FuseFormer : Fusion d'informations fines dans les Transformers pour l'inpainting vidéo

Rui Liu; Hanming Deng; Yangyi Huang; Xiaoyu Shi; Lewei Lu; Wenxiu Sun; Xiaogang Wang; Jifeng Dai; Hongsheng Li
FuseFormer : Fusion d'informations fines dans les Transformers pour l'inpainting vidéo
Résumé

Le Transformer, en tant qu'architecture puissante et flexible pour modéliser les relations à longue portée, a été largement exploré dans les tâches de vision. Cependant, lorsqu'il est utilisé pour le remplissage de vidéos (video inpainting), qui nécessite une représentation fine, les méthodes existantes souffrent encore d'un flou des contours dus à la division rigide des patches. Nous nous proposons ici de résoudre ce problème en introduisant FuseFormer, un modèle Transformer conçu pour le remplissage de vidéos grâce à une fusion fine des caractéristiques basée sur de nouvelles opérations de division douce (Soft Split) et de composition douce (Soft Composition). La division douce divise la carte des caractéristiques en nombreux patches avec un intervalle de chevauchement défini. À l'inverse, la composition douce assemble différents patches en une carte des caractéristiques complète où les pixels dans les régions chevauchantes sont additionnés. Ces deux modules sont utilisés pour la première fois lors du processus de tokenisation avant les couches Transformer et lors du détokenisation après ces couches, afin d'assurer une correspondance efficace entre tokens et caractéristiques. Ainsi, l'interaction d'information au niveau sous-patch est rendue possible, favorisant une propagation plus efficace des caractéristiques entre les patches voisins et aboutissant à la synthèse d'un contenu vivant pour les régions manquantes dans les vidéos. De plus, dans FuseFormer, nous insérons soigneusement la composition douce et la division douce dans le réseau de propagation avant, permettant aux couches linéaires unidimensionnelles d'avoir la capacité de modéliser une structure bidimensionnelle. Cette capacité de fusion des caractéristiques au niveau sous-patch est ainsi davantage renforcée. Nos évaluations quantitatives et qualitatives montrent que notre FuseFormer proposé dépasse les méthodes actuelles de pointe. Nous avons également mené une analyse détaillée pour examiner sa supériorité.

FuseFormer : Fusion d'informations fines dans les Transformers pour l'inpainting vidéo | Articles de recherche récents | HyperAI