
要約
監視カメラネットワークの著しい増加に伴い、これらのネットワークが生成する大量のビデオデータを効率的に分析するためのスケーラブルなAIソリューションが必要となっています。監視映像における典型的な分析の一つとして、ビデオ暴力検出が最近注目を集めています。これまでの研究の大半は、教師あり学習手法を使用して既存の方法を改善することに焦点を当てており、半教師あり学習アプローチへの関心はほとんどありませんでした。本研究では、半教師ありアプローチを通じて既存モデルを上回る強化学習モデルを導入します。提案手法の主な新規性は、半教師ありハードアテンションメカニズムの導入にあります。ハードアテンションを使用することで、ビデオ内の重要な領域が識別され、非情報的な部分から分離されます。冗長なデータを取り除き、有用な視覚情報を高解像度で集中させることが可能となり、モデルの精度が向上します。半教師あり強化学習アルゴリズムを使用したハードアテンションメカニズムの実装により、ビデオ暴力データセットでのアテンション注釈の必要性がなくなりますので、適用が容易となります。提案モデルでは、事前学習されたI3Dバックボーンを利用することで訓練過程を加速し安定させています。提案モデルはRWFおよびHockeyデータセットにおいてそれぞれ90.4%と98.7%という最先端の精度を達成しました。