
要約
現在の行動認識システムは、行動を認識するためには大量の学習データを必要としている。近年の研究では、未観測のカテゴリやラベルが少ないカテゴリに対して分類器を学習するためのゼロショット学習およびフェイショット学習の枠組みが探求されている。物体認識における類似したアプローチと同様に、これらの手法は外部の知識源(例えば言語領域からの知識グラフ)を活用している。しかし、物体とは異なり、行動に対して最適な知識表現が何であるかは明確でない。本論文では、ゼロショットおよびフェイショット行動認識に活用可能な知識グラフ(KG)の特性をより深く理解することを目的とする。特に、知識グラフの構築に向けた3つの異なるメカニズム、すなわち行動埋め込み(action embeddings)、行動-物体埋め込み(action-object embeddings)、視覚的埋め込み(visual embeddings)を検討する。また、異なる実験設定における各種知識グラフの影響について広範な分析を提示する。さらに、ゼロショットおよびフェイショットアプローチの体系的な研究を可能にするために、Kineticsデータセットで訓練されたモデルから知識を転移する際の評価フレームワークを、UCF101、HMDB51、Charadesデータセットに基づき改善して提案する。