HyperAIHyperAI

Command Palette

Search for a command to run...

テキストベースの動画セグメンテーションのためのアクターとアクションモジュールネットワーク

Jianhua Yang Yan Huang Kai Niu Linjiang Huang Zhanyu Ma Liang Wang

概要

テキストベースの動画セグメンテーションは、テキストクエリによってアクターとその動作を指定することで、動画シーケンス内のアクターをセグメントするタスクである。従来の手法は、モダリティ間の「意味的非対称性(semantic asymmetry)」という問題により、動画コンテンツとテキストクエリをアクターおよびその動作の細粒度レベルで明示的に一致させることができない。この「意味的非対称性」とは、マルチモーダル融合プロセスにおいて、両モダリティが異なる量の意味情報を含むことを意味する。この問題を緩和するために、本研究ではアクターと動作をそれぞれ独立したモジュールで局所化する新しいアクター・動作モジュールネットワークを提案する。具体的には、まず動画とテキストクエリからアクター関連および動作関連のコンテンツを学習し、その後、対称的なマッチングによりターゲットチューブ(target tube)を局所化する。ターゲットチューブには目的のアクターとその動作が含まれており、その後、完全畳み込みネットワーク(fully convolutional network)に供給され、アクターのセグメンテーションマスクが予測される。さらに、提案する時間的プロポーザル集約機構(temporal proposal aggregation mechanism)により、複数フレームに跨るオブジェクト間の関連性を確立する。これにより、時間的整合性を維持しつつ、効果的な動画セグメンテーションが可能となる。本手法は、アクター・動作のマッチングとセグメンテーションを統合的に学習可能であり、A2D SentencesおよびJ-HMDB Sentencesデータセットにおいて、単フレームセグメンテーションおよびフル動画セグメンテーションの両面で、最先端の性能を達成している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
テキストベースの動画セグメンテーションのためのアクターとアクションモジュールネットワーク | 記事 | HyperAI超神経