
감시 카메라 네트워크의 급속한 성장은 이러한 네트워크가 생성하는 대량의 비디오 데이터를 효율적으로 분석하기 위한 확장 가능한 AI 솔루션을 필요로 합니다. 감시 영상에서 수행되는 전형적인 분석 중 하나인 비디오 폭력 검출은 최근 많은 주목을 받고 있습니다. 대부분의 연구는 지도 학습 방법을 사용하여 기존 방법을 개선하는 데 초점을 맞추었으며, 준지도 학습 접근법에 대한 관심은 거의 없었습니다. 본 연구에서는 준지도 접근법을 통해 기존 모델보다 우수한 성능을 발휘할 수 있는 강화 학습 모델을 소개합니다. 제안된 방법의 주요 혁신성은 준지도 하드 어텐션 메커니즘의 도입에 있습니다. 하드 어텐션을 사용하면 비디오의 중요한 영역이 비정보적인 부분과 구분되어 식별됩니다. 불필요한 데이터를 제거하고 고해상도로 유용한 시각 정보에 집중함으로써 모델의 정확성이 향상됩니다. 준지도 강화 학습 알고리즘을 사용하여 하드 어텐션 메커니즘을 구현하면 비디오 폭력 데이터셋에서 어텐션 주석이 필요하지 않으므로 쉽게 적용할 수 있습니다. 제안된 모델은 훈련 과정을 가속화하고 안정화하기 위해事前訓練된 I3D 백본(Backbone)을 활용합니다. 제안된 모델은 RWF와 하키(Hockey) 데이터셋에서 각각 최고 수준의 정확도 90.4%와 98.7%를 달성했습니다.注:在最后一句中,“하키(Hockey)”的数据集名称使用了括号标注原文,以确保信息的完整性。另外,“事前訓練된”是中文,正确的韩文应该是“사전 훈련된”。以下是修正后的版本:감시 카메라 네트워크의 급속한 성장은 이러한 네트워크가 생성하는 대량의 비디오 데이터를 효율적으로 분석하기 위한 확장 가능한 AI 솔루션을 필요로 합니다. 감시 영상에서 수행되는 전형적인 분석 중 하나인 비디오 폭력 검출은 최근 많은 주목을 받고 있습니다. 대부분의 연구는 지도 학습 방법을 사용하여 기존 방법을 개선하는 데 초점을 맞추었으며, 준지도 학습 접근법에 대한 관심은 거의 없었습니다. 본 연구에서는 준지도 접근법을 통해 기존 모델보다 우수한 성능을 발휘할 수 있는 강화 학습 모델을 소개합니다. 제안된 방법의 주요 혁신성은 준지도 하드 어텐션 메커니즘의 도입에 있습니다. 하드 어텐션을 사용하면 비디오의 중요한 영역이 비정보적인 부분과 구분되어 식별됩니다. 불필요한 데이터를 제거하고 고해상도로 유용한 시각 정보에 집중함으로써 모델의 정확성이 향상됩니다. 준지도 강화 학습 알고리즘을 사용하여 하드 어텐션 메커니즘을 구현하면 비디오 폭력 데이터셋에서 어텐션 주석이 필요하지 않으므로 쉽게 적용할 수 있습니다. 제안된 모델은 훈련 과정을 가속화하고 안정화하기 위해 사전 훈련된 I3D 백본(Backbone)을 활용합니다. 제안된 모델은 RWF와 하키(Hockey) 데이터셋에서 각각 최고 수준의 정확도 90.4%와 98.7%를 달성했습니다.