18일 전
비디오 이해를 위한 상호작용 행동 탐지의 확장 가능한 계층적 방법
{Junho Jin, Jinyoung Moon, Yongjin Kwon, Kyuchang Kang, Kyoung Park, Jongyoul Park}
초록
영상 이해, 즉 영상 속에서 누가 무엇을 했는지를 분석하는 작업에서는 행동과 객체가 주요 요소이다. 기존 행동 인식 연구 대부분은 잘 자르기(fully trimmed)된 영상에 대한 인식 문제에 집중하며, 분류 성능 향상에 주력해왔다. 그러나 일반적으로 행동들은 시간적·공간적으로 겹치기 때문에, 행동 탐지(Recognition 및 Localization 포함)가 필수적이다. 또한 대부분의 기존 연구는 사전에 학습된 행동 외에 새로 추가된 행동에 대한 확장성(Extensibility)을 고려하지 않았다. 본 논문에서는 객체의 움직임과 두 객체 간의 공간 관계를 결합한 일반적인 행동(generic actions)을 탐지하기 위한 확장 가능한 계층적 방법을 제안한다. 또한 온톨로지와 규칙 기반 방법을 통해 관련 객체에 의해 결정되는 계승적 행동(inherited actions)을 탐지하는 방법을 포함한다. 제안된 계층적 구조는 두 객체 간의 공간 관계를 기반으로 하여 어떠한 상호작용 행동이라도 탐지할 수 있도록 한다. 객체 정보를 활용한 본 방법은 F-측정(F-measure)에서 90.27%의 성능을 달성하였다. 더불어, 본 논문은 제안된 방법이 기존 학습 데이터셋과 다른 영상 도메인에서 새롭게 등장한 행동을 포함하는 영상에 대해서도 확장 가능함을 설명한다.