11日前

時系列行動提案の向上に向けた階層的コンテキストの活用

{Shenghai Rong, Zilei Wang, Qinying Liu}
要約

時系列行動提案(Temporal Action Proposal: TAP)は、トリムされていない動画内における行動インスタンスの正確な候補を生成することを目的としている。このタスクにおいて、文脈情報が極めて重要であることが既に示されている。本論文では、スニペットレベルおよび提案レベルの文脈をさらに深く探求するための新しい階層的文脈ネットワーク(Hierarchical Context Network: HCN)を提案する。このHCNは、それぞれスニペットおよび提案の表現を向上させるために、スニペットレベルと提案レベルの文脈を有効に活用する。まず、異なるスケールのスニペットレベル文脈が、すべての行動インスタンスにおいて同等に重要であるとは限らないことを指摘し、その対応するコンテンツに適応した文脈を捉えるために、U-Net構造に新しいゲート機構を組み込む。次に、提案レベルの文脈を効率的に活用するため、タスク特有の高効率な自己注意(self-attention)モデルを提案する。複数の注意モデルを積層することで、広範囲にわたる提案レベルの文脈を深く探索可能となる。さらに、これらの二つのレベルの文脈を統合的に活用するため、HCNには局所から全体まで提案を評価する三つの分岐構造を備える。ActivityNet-1.3およびTHUMOS14データセットにおける実験結果から、HCNは従来のTAP手法を著しく上回ることが示された。さらに、既存の行動分類器と組み合わせた追加実験により、本手法が最先端の行動検出性能を大幅に向上させることも確認された。

時系列行動提案の向上に向けた階層的コンテキストの活用 | 最新論文 | HyperAI超神経