vor 6 Tagen

RelayFormer: Ein einheitlicher lokaler-globaler Aufmerksamkeitsrahmen für skalierbare Lokalisierung von Bild- und Videobearbeitungen

Wen Huang, Jiarui Yang, Tao Dai, Jiawei Li, Shaoxiong Zhan, Bin Wang, Shu-Tao Xia

Abstract

Visual Manipulation Localization (VML) – sowohl für Bilder als auch für Videos – ist eine entscheidende Aufgabe der digitalen Forensik, die darauf abzielt, manipulierte Bereiche in visuellem Inhalt zu identifizieren. Herkömmliche Methoden weisen jedoch oft eine geringe Generalisierbarkeit über Modalitäten hinweg auf und sind ineffizient bei der Verarbeitung hochauflösender oder langdauernder Eingabedaten. Wir stellen RelayFormer vor, eine einheitliche und modulare Architektur für die Visual Manipulation Localization in Bildern und Videos. Durch die Nutzung flexibler lokaler Einheiten und eines Global-Local Relay Attention (GLoRA)-Mechanismus ermöglicht sie skalierbare, auflösungsunabhängige Verarbeitung mit starker Generalisierungsfähigkeit. Unser Framework integriert sich nahtlos in bestehende Transformer-basierte Backbone-Architekturen wie ViT und SegFormer mittels leichtgewichtiger Anpassungsmodulen, die nur minimale Änderungen an der Architektur erfordern und somit die Kompatibilität ohne Störung vortrainierter Repräsentationen gewährleisten. Darüber hinaus entwickeln wir einen leichtgewichtigen, abfragespezifischen Maskendekoder, der eine One-Shot-Inferenz über Video-Sequenzen mit linearer Komplexität unterstützt. Umfangreiche Experimente an mehreren Benchmarks zeigen, dass unser Ansatz eine state-of-the-art-Genauigkeit bei der Lokalisierung erreicht und eine neue Benchmark für skalierbare, modalitätsunabhängige VML setzt. Der Quellcode ist unter folgender URL verfügbar: this https URL.