ManTra-Net: 이상 특징을 갖는 이미지 위조 탐지 및 위치 결정을 위한 조작 추적 네트워크

실생활 이미지 조작 문제, 특히 다양한 유형의 조작이 복합적으로 이루어지는 상황에 대응하기 위해, 우리는 ManTra-Net이라는 통합적인 딥 뉴럴 아키텍처를 제안한다. 기존의 많은 해결책들과 달리, ManTra-Net은 추가적인 전처리 및 후처리 과정 없이도 탐지와 정확한 위치 추정을 엔드투엔드(end-to-end) 방식으로 수행할 수 있다. ManTra-Net은 완전 컨볼루션 네트워크(fully convolutional network) 구조를 채택하여 임의의 크기의 이미지를 처리할 수 있으며, 이미지 스파licing, 복사-이동, 제거, 강조 등의 알려진 조작 유형은 물론, 미지의 조작 유형까지도 효과적으로 다룰 수 있다. 본 논문은 세 가지 주요 기여를 한다. 첫째, 385개의 이미지 조작 유형을 분류하는 데 활용 가능한 간단하면서도 효과적인 자기지도 학습(self-supervised learning) 작업을 설계하여 강건한 이미지 조작 흔적을 학습하였다. 둘째, 조작 지역을 탐지하는 문제를 국소 이상 탐지(local anomaly detection) 문제로 재정의하고, 국소 이상을 포착할 수 있는 Z-score 특징을 제안하며, 국소 이상을 평가하기 위한 새로운 장단기 기억(LSTM) 기반의 솔루션을 제안하였다. 셋째, 제안된 네트워크 설계를 체계적으로 최적화하기 위해 철저한 아블레이션 실험(ablation experiments)를 수행하였다. 광범위한 실험 결과를 통해 ManTra-Net이 단일 조작 유형에 국한되지 않고, 복잡한 조작 유형의 복합적 조합 상황에서도 뛰어난 일반화 능력, 강건성 및 우수성을 입증하였다.