HyperAIHyperAI
il y a 6 jours

RelayFormer : un cadre unifié d'attention locale-global pour la localisation scalable de la manipulation d'images et de vidéos

Wen Huang, Jiarui Yang, Tao Dai, Jiawei Li, Shaoxiong Zhan, Bin Wang, Shu-Tao Xia
RelayFormer : un cadre unifié d'attention locale-global pour la localisation scalable de la manipulation d'images et de vidéos
Résumé

La localisation de la manipulation visuelle (VML) — tant pour les images que pour les vidéos — constitue une tâche essentielle en forensic numérique, visant à identifier les régions altérées dans le contenu visuel. Toutefois, les méthodes existantes peinent souvent à généraliser entre différents modes (modalités) et rencontrent des difficultés à traiter efficacement des entrées à haute résolution ou de longue durée. Nous proposons RelayFormer, une architecture unifiée et modulaire pour la localisation de la manipulation visuelle à la fois sur images et vidéos. En exploitant des unités locales souples et un mécanisme d’attention Global-Local Relay (GLoRA), cette approche permet un traitement évolutif et indépendant de la résolution, tout en offrant une forte capacité de généralisation. Notre cadre s’intègre naturellement aux modèles de base basés sur les Transformers existants, tels que ViT et SegFormer, grâce à des modules d’adaptation légers nécessitant des modifications architecturales minimales, garantissant ainsi la compatibilité sans perturber les représentations préentraînées. En outre, nous avons conçu un décodeur de masques léger basé sur des requêtes, capable de réaliser une inférence one-shot sur des séquences vidéo avec une complexité linéaire. Des expériences étendues sur plusieurs benchmarks démontrent que notre méthode atteint des performances de localisation de pointe, établissant une nouvelle référence pour la VML évolutrice et indépendante de la modalité. Le code est disponible à l’adresse suivante : this https URL.

RelayFormer : un cadre unifié d'attention locale-global pour la localisation scalable de la manipulation d'images et de vidéos | Articles de recherche récents | HyperAI