6ヶ月前

概要

視覚と自然言語の統合的理解は、人工知能分野において広範な応用を持つ挑戦的な問題である。本研究では、文章によるクエリに基づいて、動画中の人物（アクター）および行動（アクション）のセグメンテーションを行うタスクに注目し、動画とテキストの統合を実現する手法を提案する。我々は、対象となる人物を自然言語で記述したクエリに基づいて、画素単位での局所化を実現するキャプセルベースのアプローチを提案する。動画およびテキスト入力をともにキャプセル形式で符号化することで、従来の畳み込みベースの特徴表現に比べ、より効果的な表現を可能にする。また、本研究では、視覚とテキストのキャプセルを融合するための新規な視覚-言語ルーティング機構を設計し、人物および行動の正確な局所化を実現した。既存の人物-行動局所化研究は、主に単一フレーム内の局所化に焦点を当てているが、本研究では動画全体のすべてのフレームに対して局所化を実行することを提案する。本手法の有効性を検証するため、既存の人物-行動データセット（A2D）を拡張し、全フレームに対するアノテーションを追加した。実験評価の結果、本手法が動画内のテキスト選択的人物・行動局所化において高い効果を発揮することが示された。さらに、単一フレームに基づく既存の最先端手法に対しても、性能の向上が確認された。

ソースPDF