HyperAIHyperAI

Command Palette

Search for a command to run...

圧縮動画に対する参照オブジェクトセグメンテーションのためのマルチアテンションネットワーク

Weidong Chen Dexiang Hong Yuankai Qi Zhenjun Han Shuhui Wang Laiyun Qing Qingming Huang Guorong Li

概要

参照動画オブジェクトセグメンテーションは、与えられた言語表現によって指されるオブジェクトをセグメンテーションするタスクである。従来の手法は、セグメンテーションを行う前に圧縮動画ビットストリームをRGBフレームに復号する必要があるため、計算量およびストレージ要件が増加し、結果として推論速度が低下するという問題がある。これは、自動運転車やドローンなど、計算リソースが制限された実世界の環境における応用を阻害する要因となる。本稿では、この課題を軽減するために、圧縮動画の元のデータストリーム上で参照オブジェクトセグメンテーションを実施するアプローチを提案する。このタスクの本質的な難しさに加え、圧縮動画から判別性の高い表現を抽出することは極めて困難である。これを解決するために、双パス・双注意力モジュールとクエリベースのクロスモーダルTransformerモジュールから構成されるマルチアテンションネットワークを提案する。具体的には、双パス・双注意力モジュールは、Iフレーム、モーションベクトル、残差という3つのモダリティから圧縮データから効果的な表現を抽出するように設計されている。一方、クエリベースのクロスモーダルTransformerは、言語モダリティと視覚モダリティの相関関係をまずモデル化し、その後融合されたマルチモーダル特徴を用いて、オブジェクトクエリがコンテンツに適応した動的カーネルを生成し、最終的なセグメンテーションマスクを予測する。従来の手法とは異なり、本手法では1つのカーネルのみを学習することで、既存手法に見られる複雑なマスクマッチングの後処理を不要にしている。3つの挑戦的なデータセットにおける広範な実験結果から、RGBデータ処理を目的とした複数の最先端手法と比較して、本手法の有効性が示された。ソースコードは以下のURLで公開されている:https://github.com/DexiangHong/MANet


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています