
要約
本論文は、動画コンテンツ中のアクターとその行動のピクセルレベルセグメンテーションを達成することを目指しています。既存の研究とは異なり、これらはすべて固定されたアクターと行動のペアの語彙からセグメンテーションを学習するのに対し、我々は自然言語入力文からセグメンテーションを推論します。これにより、同じ上位カテゴリ内の微細なアクター間の区別、アクターと行動インスタンスの識別、およびアクターと行動の語彙外にあるペアのセグメンテーションが可能になります。我々は、ビデオ向けに最適化されたエンコーダー-デコーダー構造を使用したピクセルレベルでのアクターと行動のセグメンテーション用の完全畳み込みモデルを提案します。自然言語文からのアクターと行動のビデオセグメンテーションの可能性を示すために、2つの人気のあるアクターアクションデータセットを7,500以上の自然言語記述で拡張しました。実験結果は、文章ガイドによるセグメンテーションの品質、我々のモデルの汎化能力、そして従来のアクターアクションセグメンテーションにおける最先端技術に対する優位性を示しています。