17일 전

데이터 효율적인 비디오 트랜스포머를 통한 폭력 탐지

{almamon rasool abdali}
초록

스마트 시티에서는 폭력 사건 탐지가 도시 안전을 보장하는 데 있어 핵심적인 과제이다. 이 주제에 관한 여러 연구들이 수행되어 왔으며, 주로 2차원 컨볼루션 신경망(2D-CNN)을 활용하여 각 프레임에서 공간적 특징을 추출하고, 이후 시계열 특징 학습을 위해 순환 신경망(RNN)의 다양한 변형을 사용하는 방식이 주로 적용되었다. 한편, 트랜스포머 네트워크는 다양한 분야에서 뛰어난 성과를 거두고 있다. 그러나 트랜스포머의 주요 한계는 우수한 성능을 달성하기 위해 대규모 데이터셋이 필요하다는 점이다. 본 연구에서는 사전 훈련된 2D-컨볼루션 신경망(2D-CNN)을 입력 데이터의 임베딩 계층으로 활용하는 트랜스포머 기반의 데이터 효율적인 비디오 트랜스포머(DeVTr)를 제안한다. 이 모델은 공간-시계열 특징 학습을 위한 새로운 방법으로서 설계되었으며, 실제 폭력 사건 데이터셋(RLVS)에서 훈련 및 검증을 수행하여 96.25%의 정확도를 달성하였다. 제안된 방법의 성능을 기존 기법들과 비교한 결과, 폭력 사건 탐지 분야에서 본 연구에서 제안한 방법이 기존 모든 연구보다 우수한 성능을 보였다.

데이터 효율적인 비디오 트랜스포머를 통한 폭력 탐지 | 최신 연구 논문 | HyperAI초신경