6日前
RelayFormer:スケーラブルな画像および動画操作の局所的・包括的注意力枠組み
Wen Huang, Jiarui Yang, Tao Dai, Jiawei Li, Shaoxiong Zhan, Bin Wang, Shu-Tao Xia

要約
視覚的改ざん領域の局所化(Visual Manipulation Localization: VML)は、画像および動画を対象としたデジタルフォレンジックスにおける重要なタスクであり、視覚コンテンツ内の改ざん領域を特定することを目的としている。しかし、従来の手法はしばしばマルチモーダルな一般化能力に欠け、高解像度または長時間の入力に対して効率的に処理できないという課題を抱えている。 本研究では、画像および動画を統合的に扱うためのユニファイドかつモジュール型アーキテクチャであるRelayFormerを提案する。柔軟な局所ユニットと、グローバル-ローカル・リレーアテンション(Global-Local Relay Attention: GLoRA)機構を活用することで、スケーラブルかつ解像度に依存しない処理が可能となり、優れた一般化性能を実現する。本フレームワークは、ViTやSegFormerといった既存のTransformerベースのバックボーンと、軽量な適応モジュールを介してシームレスに統合可能であり、最小限のアーキテクチャ変更で実現されるため、事前学習済みの表現を損なうことなく互換性を確保できる。 さらに、線形計算量で動画シーケンスにおけるワンショット推論をサポートする軽量なクエリベースのマスクデコーダーを設計した。複数のベンチマークにおける広範な実験結果から、本手法が最先端の局所化性能を達成し、スケーラブルかつモダリティに依存しないVMLの新しいベースラインを提示していることが明らかになった。コードは以下のURLから公開されている:this https URL。