要約
近年、アクションカテゴリの増加に伴い、動画内に内在する概念(例えば、アクションや属性)を自動的に抽出することで、ゼロショットアクション認識(ZSAR)が実現されてきている。しかし、既存の大多数の手法はこれらの概念の視覚的情報のみを活用しており、それらの間の明示的な関係をモデル化するための外部知識情報にはほとんど注目していない。実際、人間は馴染みのあるクラスから学習した知識を、未知のクラスの認識に効果的に転移する優れた能力を持つ。既存の手法と人間の知識のギャップを縮めるために、構造化された知識グラフに基づくエンドツーエンドのZSARフレームワークを提案する。本フレームワークは、アクション-属性、アクション-アクション、属性-属性の間の関係を統合的にモデル化可能である。知識グラフを効果的に活用するため、分類器ブランチとインスタンスブランチから構成される新しい二重ストリームグラフ畳み込みネットワーク(TS-GCN)を設計した。具体的には、分類器ブランチはすべての概念の意味表現ベクトルを入力とし、アクションカテゴリ用の分類器を生成する。一方、インスタンスブランチは各動画インスタンスの属性表現ベクトルとスコアを、属性特徴空間にマッピングする。その後、生成された分類器が各動画の属性特徴に対して評価され、全体のネットワーク最適化のために分類損失が採用される。さらに、動画の時系列情報をモデル化するため、自己注意モジュールを導入している。オリンピックスポーツ、HMDB51、UCF101の3つの現実的なアクションベンチマークにおける広範な実験結果から、本提案フレームワークの優れた性能が確認された。