
要約
ビデオ異常検出(VAD)は、コンピュータビジョン分野における動画解析および監視において極めて重要である。しかし、従来のVADモデルは学習された正常パターンに依存しているため、多様な環境への適用が困難である。その結果、ユーザーは新しい環境に対応するため、モデルの再学習や個別にAIモデルの開発を行う必要があり、機械学習の専門知識、高性能なハードウェア、および膨大なデータ収集が求められる。このような課題により、VADの実用性が制限されている。本研究では、カスタマイズ可能なビデオ異常検出(C-VAD)技術およびAnyAnomalyモデルを提案する。C-VADは、ユーザーが定義したテキストを異常イベントとして扱い、動画内の指定されたイベントを含むフレームを検出する。AnyAnomalyは、大規模な視覚言語モデルのファインチューニングを必要とせずに、文脈を意識した視覚的質問応答(VQA)を効果的に活用して実装した。提案モデルの有効性を検証するため、C-VAD用データセットを構築し、AnyAnomalyの優位性を示した。さらに、VADベンチマークデータセットにおいても競争力ある性能を示し、UBnormalデータセットでは最先端の結果を達成し、すべてのデータセットにおける一般化性能において他の手法を上回った。本研究のコードは、github.com/SkiddieAhn/Paper-AnyAnomalyにて公開されている。