2달 전

SCSampler: 비디오에서 효율적인 행동 인식을 위한 주요 클립 샘플링

Bruno Korbar; Du Tran; Lorenzo Torresani
SCSampler: 비디오에서 효율적인 행동 인식을 위한 주요 클립 샘플링
초록

많은 행동 인식 데이터셋은 관련 행동을 포함하는 짧고 잘라낸 비디오들의 모음으로 구성되어 있지만, 실제 세계의 비디오(예: 유튜브)는 매우 다른 특성을 보입니다. 이러한 비디오는 종종 몇 분 이상의 길이를 가지며, 짧은 관련 클립들이 변화가 거의 없는 장시간 세그먼트와 번갈아 등장합니다. 이러한 비디오 내의 모든 시간적 클립에 대해 밀도 높게 행동 인식 시스템을 적용하는 것은 비용 면에서 용납할 수 없을 정도로 비싸습니다. 또한, 우리의 실험에서 보듯이, 이는 관련 클립들에서 얻은 유익한 예측이 장시간의 무관한 부분에서 나오는 의미 없는 분류 결과에 의해 압도되어 최적의 인식 정확도를 달성하지 못하게 합니다. 본 논문에서는 긴 비디오 내에서 가장 중요한 시간적 클립들을 효율적으로 식별할 수 있는 경량화된 '클립 샘플링' 모델을 소개합니다. 우리는 이 방법을 통해 미리 잘라내지 않은 비디오에서의 행동 인식 계산 비용을 극적으로 줄일 수 있음을 입증합니다. 또한, 이 방법이 모든 클립이나 임의로/균등하게 선택된 클립들을 분석하는 것보다 인식 정확도에서 상당한 향상을 가져옴을 보여줍니다. 스포츠1M(Sports1M) 데이터셋에서 우리의 클립 샘플링 방안은 이미 최신 기술 수준인 행동 분류기의 정확도를 7% 끌어올리고 그 계산 비용을 15배 이상 줄였습니다.

SCSampler: 비디오에서 효율적인 행동 인식을 위한 주요 클립 샘플링 | 최신 연구 논문 | HyperAI초신경