13日前

ClawCraneNet：テキストベース動画セグメンテーションにおけるオブジェクトレベル関係の活用

Chen Liang, Yu Wu, Yawei Luo, Yi Yang

要約

テキストベースの動画セグメンテーションは、動画内における自然言語によって指される対象物を抽出する困難なタスクであり、本質的に意味理解および細粒度な動画理解を要する。従来の手法は、下位から上位へのアプローチにより言語表現をセグメンテーションモデルに導入しているが、これはConvNetの局所的受容野内でのみ視覚・言語間の相互作用を実現しているにとどまる。本研究では、このような相互作用は、部分的な観測情報のみでは領域レベルの関係を構築することが困難であるため、自然言語／参照表現の記述論理とは相反するものであると指摘する。実際、人間はしばしば他の対象との関係性を用いて対象を記述するが、動画全体を視認せずにその関係性を正確に理解するのは容易ではない。この課題に対処するため、人間が言語の誘導のもとで対象をセグメンテーションするプロセスを模倣する、新たなトップダウンアプローチを提案する。本手法では、まず動画内に存在するすべての候補対象を特定し、その後、これらの高レベルな対象間の関係を解析することで、参照対象を特定する。正確な関係性理解を実現するため、位置関係、テキスト誘導型の意味関係、時間的関係の3種類の対象レベルの関係を検討した。A2D SentencesおよびJ-HMDB Sentencesにおける広範な実験結果から、本手法は最先端手法を大きく上回ることを示した。定量的・定性的な結果ともに、本手法の出力がより説明可能性を有していることも確認された。