
우리는 연속적인, 잘리지 않은 비디오 스트림에서 시간적 활동 검출 문제를 다룹니다. 이는 활동을 포착하기 위해 의미 있는 시공간 특성을 추출하고, 각 활동의 시작과 종료 시간을 정확히 위치시키는 데 필요한 어려운 작업입니다. 우리는 새로운 모델인 Region Convolutional 3D Network (R-C3D)를 소개합니다. 이 모델은 세 가지 차원의 완전한 컨벌루션 네트워크를 사용하여 비디오 스트림을 인코딩한 후, 활동이 포함된 후보 시간 영역을 생성하고, 마지막으로 선택된 영역들을 특정 활동으로 분류합니다. 제안 단계와 분류 단계 간에 컨벌루션 특성을 공유함으로써 계산량이 절약됩니다. 우리는 또한 원래 RGB 스트림과 광학 흐름 기반 움직임 스트림을 효율적으로 통합하여 검출 성능을 더욱 개선하였습니다. 두 스트림 네트워크는 서로 다른 수준에서 흐름과 RGB 특성 맵을 융합하여 공동 최적화됩니다.또한, 훈련 단계에서는 어떤 검출 파이프라인에서도 일반적으로 관찰되는 극심한 전경-배경 불균형 문제를 해결하기 위해 온라인 하드 예제 채굴 전략을 도입하였습니다. 후보 세그먼트를 최종 활동 분류 단계에서 직관적으로 샘플링하는 대신, 성능에 따라 순위를 매기고 가장 성능이 낮은 예제들만 모델 업데이트에 사용합니다. 이 방법은 복잡한 하이퍼파라미터 조정 없이도 모델의 성능을 개선할 수 있습니다. 세 가지 벤치마크 데이터셋에서 광범위한 실험을 수행하여 기존의 시간적 활동 검출 방법보다 우수한 성능을 보여주었습니다. 우리의 모델은 THUMOS'14 및 Charades 데이터셋에서 최상의 결과를 달성하였으며, ActivityNet 데이터셋에서 우리 접근법을 평가함으로써 특정 데이터셋 속성에 대한 가정에 의존하지 않는 일반적인 시간적 활동 검출 프레임워크임을 입증하였습니다.