8ヶ月前

概要

ビデオ異常検出（VAD）は、セキュリティ監視や自動運転などのアプリケーションにおいて重要な役割を果たします。しかし、既存のVAD手法は検出の背後にある理由をほとんど提供せず、実際の展開における公衆の信頼を阻害しています。本論文では、推論フレームワークを用いてVADに取り組む方法を提案します。大規模言語モデル（LLMs）は革新的な推論能力を示していますが、その直接的な利用はVADにおいて不十分であることがわかりました。具体的には、LLMsに事前学習された暗黙の知識は一般的なコンテキストに焦点を当てており、特定の実世界のVADシナリオすべてに適用できないため、柔軟性と精度が欠けてしまいます。これを解決するために、私たちはAnomalyRulerという新しいルールベースの推論フレームワークを提案します。AnomalyRulerは主に2つの段階で構成されています：誘導段階と演繹段階です。誘導段階では、LLMに対して少数サンプルの正常な参照データが入力され、これらの正常パターンが要約されて異常検出用のルールセットが生成されます。演繹段階では、誘導されたルールに基づいてテストビデオ内の異常フレームを探し出します。さらに、私たちはルール集約、知覚平滑化、および堅牢な推論戦略を設計してAnomalyRulerの堅牢性を向上させています。AnomalyRulerは一クラスVADタスク向けの最初の推論アプローチであり、完全な学習ではなく少数サンプルの正常データ提示だけで迅速に対応できるため、さまざまなVADシナリオへの適応が可能になります。4つのVADベンチマークにおける包括的な実験により、AnomalyRulerの一貫した最先端の検出性能と推論能力が確認されました。AnomalyRulerはオープンソースであり、以下のURLから入手できます：https://github.com/Yuchen413/AnomalyRuler

ソースPDF