8日前

グラフニューラルネットワークを用いたビデオキャプションにおけるアクション知識

{Cheol Jeong, Fikriansyah Adzaka, Bahy Helmi Hartoyo Putra, Vania Velda, Willy Fitra Hendria}
要約

多くの既存の動画キャプション生成手法は、アクション認識モデルから抽出された特徴を活用して動画内の行動情報を捉えている。しかし、対象物体に特化した表現を用いないままアクション特徴を直接使用すると、物体間の相互作用を十分に捉えることができない。その結果、生成されたキャプションはシーンにおける行動や物体の記述が不十分になる可能性がある。この問題に対処するため、本研究では、ノードが物体を表すグラフニューラルネットワーク(GNN)において、アクション特徴をエッジ特徴として組み込む手法を提案する。これにより、物体-行動-物体間のより詳細な視覚的関係を捉えることが可能となる。これまでのグラフベースの動画キャプション生成手法では、ノード表現の作成に事前学習済みの物体検出モデルを一般的に用いていた。しかし、物体検出モデルは重要な物体を漏れてしまう可能性がある。この問題を緩和するため、本研究ではグリッドベースのノード表現をさらに導入する。この表現では、動画フレームのグリッド単位から抽出された特徴によってノードを表現する。これにより、シーン内の重要な物体をより包括的に捉えることが可能となる。推論時に追加の計算負荷を生じさせないよう、提案するグラフ構造の知識は知識蒸留(knowledge distillation)を用いて別のニューラルネットワークへと転移する。本研究で提案する手法は、代表的な動画キャプションデータセットであるMSVDおよびMSR-VTTにおいて、すべての評価指標で最先端の性能を達成した。本研究の実装コードは、https://github.com/Sejong-VLI/V2T-Action-Graph-JKSUCIS-2023 にて公開されている。

グラフニューラルネットワークを用いたビデオキャプションにおけるアクション知識 | 最新論文 | HyperAI超神経