규칙 준수: 대형 언어 모델을 활용한 비디오 이상 탐지의 추론 방법

비디오 이상 탐지(VAD)는 보안 감시 및 자율 주행과 같은 응용 분야에서 매우 중요합니다. 그러나 기존의 VAD 방법들은 탐지 결과에 대한 명확한 근거를 제공하지 않아, 실제 환경에서의 배포에 있어 대중의 신뢰를 저해하고 있습니다. 본 논문에서는 VAD를 추론 프레임워크로 접근하였습니다. 대형 언어 모델(LLMs)은 혁신적인 추론 능력을 보여주었지만, 우리는 이들의 직접적인 사용이 VAD에서는 부족하다는 것을 발견하였습니다. 구체적으로, LLMs에서 사전 학습된 암묵적 지식은 일반적인 맥락에 초점을 맞추고 있어 모든 특정 실제 VAD 상황에 적용되지 않을 수 있으며, 이로 인해 유연성과 정확성이 떨어질 수 있습니다. 이를 해결하기 위해, 우리는 LLMs와 함께 사용되는 새로운 규칙 기반 추론 프레임워크인 AnomalyRuler를 제안합니다. AnomalyRuler는 유도(induction) 단계와 연역(deduction) 단계로 구성됩니다. 유도 단계에서는 소량 샷(few-shot) 정상 참조 샘플을 LLM에 입력하여 이러한 정상 패턴을 요약하고 이상 탐지를 위한 규칙 집합을 유도합니다. 연역 단계에서는 유도된 규칙을 따르며 테스트 비디오에서 이상 프레임을 식별합니다. 또한, 우리는 규칙 집합화(rule aggregation), 지각 평활화(perception smoothing), 그리고 강건한 추론 전략(robust reasoning strategies)을 설계하여 AnomalyRuler의 강건성을 더욱 향상시키고자 하였습니다. AnomalyRuler는 단일 클래스 VAD 작업을 위한 첫 번째 추론 접근 방식으로, 전체 샷(full-shot) 학습 없이 소량 샷 정상 참조만으로 빠른 적응이 가능하도록 설계되었습니다. 네 개의 VAD 벤치마크를 통해 수행된 포괄적인 실험들은 AnomalyRuler의 최신 수준의 탐지 성능과 추론 능력을 입증하였습니다. AnomalyRuler는 오픈 소스이며 다음 주소에서 이용할 수 있습니다: https://github.com/Yuchen413/AnomalyRuler