
要約
動画理解問題における多様な実用的タスクの増加に伴い、広範なユーザーに利用可能であり、エッジ指向の推論に適した汎用的ソリューションの設計という大きな課題が浮き彫りになっている。本論文では、上記の課題に対処するためのネットワークアーキテクチャおよびトレーニングパイプラインの設計に焦点を当てる。提案するアーキテクチャは、これまでの手法の優れた点を統合し、外見に基づく行動認識タスクにとどまらず、運動に基づく問題においても高い性能を発揮する能力を備えている。さらに、導入されるラベルノイズ問題を明確に定式化し、適応的クリップ選択(Adaptive Clip Selection: ACS)フレームワークを提案することで、その問題に対処する。これらの要素を統合することで、LIGARフレームワークは汎用的な行動認識ソリューションとしての実力を有する。また、広範な一般行動およびジェスチャーデータセットを用いた分析を通じて、最先端の手法と比較して、性能と効率の優れたトレードオフを実現していることを示している。トレーニングコードは、https://github.com/openvinotoolkit/training_extensions にて公開されている。エッジ指向の効率的な推論を実現するため、学習済みモデルはすべてOpenVINOフォーマットにエクスポート可能である。