11日前

期待値最大化マルチインスタンス学習を用いた弱教師付きアクションローカリゼーション

Zhekun Luo, Devin Guillory, Baifeng Shi, Wei Ke, Fang Wan, Trevor Darrell, Huijuan Xu
期待値最大化マルチインスタンス学習を用いた弱教師付きアクションローカリゼーション
要約

弱教師付きアクションローカライゼーションは、動画レベルのアクションラベルのみが与えられた状況下で、モデルが動画内のアクションセグメントを正確に特定する能力を学習することを要求する。この問題は、複数インスタンス学習(Multiple Instance Learning: MIL)フレームワークの下で解決可能である。ここで、1つのバッグ(動画)は複数のインスタンス(アクションセグメント)を含む。しかしながら、バッグのラベルしか与えられないため、主な課題は「どのキーインスタンスがバッグのラベルを引き起こしているか」を特定することである。従来の多くは、インスタンスからバッグの表現を生成するためにアテンション機構を用いるが、そのアプローチは、負のバッグ内のインスタンスが一様に負であるというMILの仮定を暗黙的に破っている。本研究では、キーインスタンスの割り当てを隠れ変数として明示的にモデル化し、期待値最大化(Expectation-Maximization: EM)フレームワークを採用する。さらに、EステップとMステップをモデル化するための2種類の擬似ラベル生成スキームを提案し、尤度下限を反復的に最適化する。実験の結果、本手法であるEM-MILは、学習目的およびMILの仮定をより正確に捉えていることが示された。また、THUMOS14およびActivityNet1.2という2つの標準ベンチマークにおいて、最先端の性能を達成した。

期待値最大化マルチインスタンス学習を用いた弱教師付きアクションローカリゼーション | 最新論文 | HyperAI超神経