12日前

自然言語仕様によるトラッキング

{Arnold W. M. Smeulders, Efstratios Gavves, Zhenyang Li, Ran Tao, Cees G. M. Snoek}
自然言語仕様によるトラッキング
要約

本稿では、動画内における対象オブジェクトの追跡に取り組む。従来のアプローチでは、動画の最初のフレームにおいてバウンディングボックスによって対象を指定するが、本研究では、対象オブジェクトを自然言語による記述に基づいて追跡する手法を提案する。これにより、より直感的な人間と機械のインタラクションが実現するとともに、追跡精度の向上も期待できる。自然言語による追跡の可能性を検証するため、我々は3つの異なる追跡アプローチを定義する:(1)言語情報のみに依拠する追跡、(2)言語から導かれる視覚的特徴に基づく追跡、(3)言語的および視覚的特徴を統合的に活用する追跡。これらのアプローチの有効性を示すために、代表的な追跡データセットを自然言語記述で拡張し、実験結果を報告する。さらに、監視やその他のリアルタイム動画ストリームにおける新たな追跡シナリオについても考察し、言語による対象指定が可能となることで、これまでにない応用が実現しうることを示す。

自然言語仕様によるトラッキング | 最新論文 | HyperAI超神経