
초록
이미지에는 사람이 수행하는 행동을 나타내는 여러 단서가 포함되어 있습니다. 예를 들어, 조깅하는 사람은 조깅 특유의 자세를 취하지만, 장면(예: 도로, 등산로)과 다른 조깅자의 존재도 추가적인 정보 출처가 될 수 있습니다. 본 연구에서는 행동이 문맥적 단서와 함께 나타난다는 간단한 관찰을 활용하여 강력한 행동 인식 시스템을 구축합니다. 우리는 RCNN을 분류에 여러 영역을 사용하도록 적응시키면서 여전히 행동의 위치를 파악할 수 있는 능력을 유지하도록 설계하였습니다. 이 시스템을 RCNN이라고 부릅니다. 행동별 모델과 특징 맵은 공동으로 훈련되며, 이는 행동 특유의 표현이 형성될 수 있도록 합니다. RCNN은 PASAL VOC Action 데이터셋에서 90.2%의 평균 AP(mean AP)를 달성하여 해당 분야의 모든 다른 접근 방식보다 크게 우수한 성능을 보였습니다. 마지막으로, RCNN이 행동 인식에 국한되지 않음을 보여줍니다. 특히, RCNN은 속성 분류와 같은 세부적인 작업에도 적용될 수 있습니다. 우리는 Berkeley Attributes of People 데이터셋에서 최고 수준의 성능을 보고함으로써 이 주장을 검증하였습니다.