17日前
SCP:空中動画行動認識のためのソフトコンディショナルプロンプト学習
Xijun Wang, Ruiqi Xian, Tianrui Guan, Fuxiao Liu, Dinesh Manocha

要約
我々は、空中動画における行動認識に向けたプロンプト学習の長所を活かす新たな学習アプローチ、Soft Conditional Prompt Learning(SCP)を提案する。本手法は、空中・ロボット視覚認識における入力動画に含まれる行動に関連する記述や指示にモデルが注目できるように支援することで、各エージェントの行動を予測することを目的として設計されている。本アプローチの定式化は、学習可能なプロンプト、補助的な視覚情報、および大規模な視覚モデルを含む多様なプロンプトをサポートしており、認識性能の向上を図る。具体的には、異なる動画入力に対して、プロンプトエキスパートのプールから動的にプロンプトを生成する能力を持つソフトコンディショナルプロンプト手法を導入している。タスクと同一の目的関数を共有するため、提案するSCPは、モデルの予測を導くプロンプトを最適化しつつ、入力に依存しない(プロンプトエキスパートプール)および入力に依存する(データ依存)プロンプト知識を明示的に学習することが可能となる。実際の評価では、単エージェントおよびマルチエージェント行動を含む空中動画データセット(Okutama、NECDrone)において、3.17~10.2%の精度向上を達成した。さらに、地上カメラによる動画データセット(SSV2)においても本手法の有効性と汎化能力を検証し、1.0~3.6%の精度向上を確認した。また、本手法はROS2にも統合されている。