6ヶ月前

概要

テキストベースの動画セグメンテーションは、テキストクエリによってアクターとその動作を指定することで、動画シーケンス内のアクターをセグメントするタスクである。従来の手法は、モダリティ間の「意味的非対称性（semantic asymmetry）」という問題により、動画コンテンツとテキストクエリをアクターおよびその動作の細粒度レベルで明示的に一致させることができない。この「意味的非対称性」とは、マルチモーダル融合プロセスにおいて、両モダリティが異なる量の意味情報を含むことを意味する。この問題を緩和するために、本研究ではアクターと動作をそれぞれ独立したモジュールで局所化する新しいアクター・動作モジュールネットワークを提案する。具体的には、まず動画とテキストクエリからアクター関連および動作関連のコンテンツを学習し、その後、対称的なマッチングによりターゲットチューブ（target tube）を局所化する。ターゲットチューブには目的のアクターとその動作が含まれており、その後、完全畳み込みネットワーク（fully convolutional network）に供給され、アクターのセグメンテーションマスクが予測される。さらに、提案する時間的プロポーザル集約機構（temporal proposal aggregation mechanism）により、複数フレームに跨るオブジェクト間の関連性を確立する。これにより、時間的整合性を維持しつつ、効果的な動画セグメンテーションが可能となる。本手法は、アクター・動作のマッチングとセグメンテーションを統合的に学習可能であり、A2D SentencesおよびJ-HMDB Sentencesデータセットにおいて、単フレームセグメンテーションおよびフル動画セグメンテーションの両面で、最先端の性能を達成している。

ソースPDF