13日前

Bridge-Prompt:指示動画における順序行動理解への道筋

Muheng Li, Lei Chen, Yueqi Duan, Zhilan Hu, Jianjiang Feng, Jie Zhou, Jiwen Lu
Bridge-Prompt:指示動画における順序行動理解への道筋
要約

行動認識モデルは、短い動画クリップにおける人間の行動を分類する上で有望な能力を示している。実世界のシナリオでは、特定の順序で複数の関連する人間の行動が頻繁に発生し、意味的に意味を持つ人間の活動を形成する。従来の行動認識アプローチは単一の行動に焦点を当てているが、隣接する行動間の文脈的関係を十分に捉えられず、長時間の動画を理解する上で重要な時間的論理を十分に活用できない。本論文では、隣接する行動間の意味をモデル化するためのプロンプトベースのフレームワーク、Bridge-Prompt(Br-Prompt)を提案する。この手法により、指示動画における順序付き行動群から得られる文脈外情報(out-of-context)と文脈情報(contextual)を同時に活用できる。具体的には、個々の行動ラベルを統合されたテキストプロンプトとして再定式化し、個々の行動の意味の間のギャップを埋める。生成されたテキストプロンプトは対応する動画クリップとペアとなり、対照的学習(contrastive learning)によりテキストエンコーダと動画エンコーダを同時に学習する。学習された視覚エンコーダは、行動セグメンテーションや人間活動認識といった順序付き行動に関連する下流タスクにおいて、より強力な性能を発揮する。本手法の性能は、Georgia Tech Egocentric Activities(GTEA)、50Salads、Breakfastデータセットなど複数の動画データセット上で評価された。Br-Promptは複数のベンチマークで最先端の性能を達成した。コードは以下のURLで公開されている:https://github.com/ttlmh/Bridge-Prompt

Bridge-Prompt:指示動画における順序行動理解への道筋 | 最新論文 | HyperAI超神経