2달 전
AVA: 시공간적으로 국한된 원자적인 시각 행동의 비디오 데이터셋
Chunhui Gu; Chen Sun; David A. Ross; Carl Vondrick; Caroline Pantofaru; Yeqing Li; Sudheendra Vijayanarasimhan; George Toderici; Susanna Ricco; Rahul Sukthankar; Cordelia Schmid; Jitendra Malik

초록
본 논문에서는 시공간적으로 국소화된 원자적 시각 행동(Atomic Visual Actions, AVA)의 비디오 데이터셋을 소개합니다. AVA 데이터셋은 430개의 15분 길이 비디오 클립에서 80개의 원자적 시각 행동을 밀도 높게 주석화하여, 한 사람당 여러 라벨이 자주 발생하는 1.58M 개의 행동 라벨을 생성합니다. 본 데이터셋의 주요 특징은 다음과 같습니다: (1) 복합적인 행동이 아닌 원자적 시각 행동의 정의; (2) 한 사람당 여러 주석이 가능한 정확한 시공간 주석; (3) 15분 길이 비디오 클립에 대한 원자적 행동의 철저한 주석화; (4) 연속 세그먼트 간 시간적으로 연결된 사람들; (5) 다양한 행동 표현을 수집하기 위해 영화를 활용함. 이는 기존의 시공간 행동 인식 데이터셋과 달리, 일반적으로 짧은 비디오 클립에서 복합적인 행동에 대해 희박한 주석을 제공하는 것과 대조됩니다. 우리는 이 데이터셋을 공개할 예정입니다.AVA는 실제적인 장면과 행동 복잡성을 통해 행동 인식의 본질적인 어려움을 드러냅니다. 이를 벤치마킹하기 위해, 현재 최신 방법론들을 기반으로 하는 새로운 접근 방식을 제시하며, JHMDB와 UCF101-24 카테고리에서 더 나은 성능을 보여줍니다. 기존 데이터셋에서 새로운 최신 성능을 설정하였음에도 불구하고, AVA에서 전체 결과는 15.6% mAP로 낮아, 비디오 이해를 위한 새로운 접근 방식 개발의 필요성을 강조합니다.