HyperAIHyperAI

Command Palette

Search for a command to run...

RelayFormer:スケーラブルな画像および動画操作の局所的・包括的注意力枠組み

Wen Huang Jiarui Yang Tao Dai Jiawei Li Shaoxiong Zhan Bin Wang Shu-Tao Xia

概要

視覚的改ざん領域の局所化(Visual Manipulation Localization: VML)は、画像および動画を対象としたデジタルフォレンジックスにおける重要なタスクであり、視覚コンテンツ内の改ざん領域を特定することを目的としている。しかし、従来の手法はしばしばマルチモーダルな一般化能力に欠け、高解像度または長時間の入力に対して効率的に処理できないという課題を抱えている。

本研究では、画像および動画を統合的に扱うためのユニファイドかつモジュール型アーキテクチャであるRelayFormerを提案する。柔軟な局所ユニットと、グローバル-ローカル・リレーアテンション(Global-Local Relay Attention: GLoRA)機構を活用することで、スケーラブルかつ解像度に依存しない処理が可能となり、優れた一般化性能を実現する。本フレームワークは、ViTやSegFormerといった既存のTransformerベースのバックボーンと、軽量な適応モジュールを介してシームレスに統合可能であり、最小限のアーキテクチャ変更で実現されるため、事前学習済みの表現を損なうことなく互換性を確保できる。

さらに、線形計算量で動画シーケンスにおけるワンショット推論をサポートする軽量なクエリベースのマスクデコーダーを設計した。複数のベンチマークにおける広範な実験結果から、本手法が最先端の局所化性能を達成し、スケーラブルかつモダリティに依存しないVMLの新しいベースラインを提示していることが明らかになった。コードは以下のURLから公開されている:this https URL。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
RelayFormer:スケーラブルな画像および動画操作の局所的・包括的注意力枠組み | 記事 | HyperAI超神経