11日前

動画・言語セグメンテーションのためのポーラー相対位置符号化

{Qi Tian, Fei Wu, Lingxi Xie, Ke Ning}
動画・言語セグメンテーションのためのポーラー相対位置符号化
要約

本稿では、ビデオ・言語セグメンテーションという挑戦的なタスクに取り組む。与えられた動画と自然言語による文を入力として、その文で記述されたオブジェクトまたはエージェントを動画フレーム内でセグメントする。ターゲットオブジェクトを正確に特定するため、文は通常、空間関係を持つ周辺オブジェクトなどの複数の属性を参照する。本稿では、空間関係を「言語的」な形で表現する新しい極座標相対位置符号化(Polar Relative Positional Encoding, PRPE)機構を提案する。この機構は、方向と距離という観点から空間関係を表現することで、文の特徴量と位置埋め込みとの間の相互作用をより直接的に行うことが可能となる。また、実数値の方向と距離に対応できるパラメータ化された関数を位置埋め込みに導入する。PRPEを基盤として、視覚・言語統合の基本モジュールとして極座標アテンションモジュール(Polar Attention Module, PAM)を設計した。提案手法は、困難なA2D Sentencesデータセットにおいて、mAP指標で従来の最良手法に対して11.4%の絶対的な性能向上を達成した。さらに、J-HMDB Sentencesデータセットにおいても競争力のある性能を示した。

動画・言語セグメンテーションのためのポーラー相対位置符号化 | 最新論文 | HyperAI超神経