6일 전

RelayFormer: 확장 가능한 이미지 및 비디오 조작 탐지를 위한 통합적 로컬-글로벌 주의 프레임워크

Wen Huang, Jiarui Yang, Tao Dai, Jiawei Li, Shaoxiong Zhan, Bin Wang, Shu-Tao Xia
RelayFormer: 확장 가능한 이미지 및 비디오 조작 탐지를 위한 통합적 로컬-글로벌 주의 프레임워크
초록

시각적 조작 지역화(VML, Visual Manipulation Localization)는 이미지 및 동영상 모두에 걸쳐 디지털 포렌식 분야에서 중요한 과제로, 시각 콘텐츠 내에서 조작된 영역을 식별하는 것을 목표로 한다. 그러나 기존의 방법들은 종종 다중 모달 간 일반화 능력이 부족하며, 고해상도 또는 장시간 입력을 효율적으로 처리하는 데 어려움을 겪는다. 본 연구에서는 이미지와 동영상 간의 시각적 조작 지역화를 위한 통합적이고 모듈식 아키텍처인 RelayFormer을 제안한다. 유연한 국소 단위와 글로벌-로컬 리레이 주의(GloRA, Global-Local Relay Attention) 메커니즘을 활용함으로써, 확장 가능하고 해상도에 구애받지 않는 처리가 가능하며, 뛰어난 일반화 성능을 달성할 수 있다. 제안하는 프레임워크는 ViT 및 SegFormer과 같은 기존의 Transformer 기반 백본과 가볍고 효율적인 적응 모듈을 통해 원활하게 통합되며, 최소한의 아키텍처 변경만으로도 사전 학습된 표현을 방해하지 않으면서도 호환성을 보장한다. 또한, 선형 복잡도를 갖는 일회성 추론을 지원하는 가벼운 쿼리 기반 마스크 디코더를 설계하였다. 다양한 벤치마크에서 실시한 광범위한 실험을 통해 제안하는 방법이 최신 기준을 초월하는 지역화 성능을 달성함으로써, 확장 가능하고 모달리티에 구애받지 않는 VML의 새로운 기준을 제시하였다. 코드는 다음 URL에서 제공된다: this https URL.

RelayFormer: 확장 가능한 이미지 및 비디오 조작 탐지를 위한 통합적 로컬-글로벌 주의 프레임워크 | 최신 연구 논문 | HyperAI초신경