5 天前

RelayFormer:一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架

Wen Huang, Jiarui Yang, Tao Dai, Jiawei Li, Shaoxiong Zhan, Bin Wang, Shu-Tao Xia
RelayFormer:一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架
摘要

视觉篡改定位(Visual Manipulation Localization, VML)——涵盖图像与视频两类模态——是数字取证领域中一项关键任务,旨在识别视觉内容中被篡改的区域。然而,现有方法普遍缺乏跨模态泛化能力,且在处理高分辨率图像或长时视频输入时效率低下。 本文提出RelayFormer,一种统一且模块化的架构,用于实现图像与视频中视觉篡改的定位。通过引入灵活的局部单元结构以及全局-局部协同注意力机制(Global-Local Relay Attention, GLoRA),该方法实现了可扩展、与分辨率无关的处理能力,并具备强大的泛化性能。我们的框架可通过轻量级适配模块无缝集成至现有的基于Transformer的主干网络(如ViT和SegFormer),仅需极小的结构改动,即可保持预训练表示的完整性,确保良好的兼容性。 此外,我们设计了一种轻量级、基于查询的掩码解码器,可在视频序列上实现单次推理,计算复杂度为线性。在多个基准数据集上的大量实验表明,所提方法在视觉篡改定位任务中达到了当前最优性能,为可扩展、模态无关的VML任务树立了新的基准。代码已开源,地址见:[this https URL]。

RelayFormer:一种用于可扩展图像与视频操纵定位的统一局部-全局注意力框架 | 最新论文 | HyperAI超神经