Scene Flow to Action Map: RGB-D 기반 행동 인식을 위한 새로운 표현 방법

장면 흐름(Scene flow)은 실제 세계에서 3D 객체의 움직임을 설명하며, 잠재적으로 3D 행동 인식의 좋은 특성을 구성할 수 있는 기반이 될 가능성이 있습니다. 그러나 장면 흐름이 행동 인식, 특히 컨볼루션 신경망(Convolutional Neural Networks, ConvNets)의 맥락에서 사용되는 것은 이전에 연구되지 않았습니다. 본 논문에서는 RGB-D 데이터에서 행동 인식을 위해 장면 흐름을 추출하고 활용하는 방법을 제안합니다. 과거 연구들은 깊이(depth)와 RGB 모달리티를 별도의 채널로 간주하여 나중에 특성을 융합하기 위해 추출하였습니다. 우리는 다른 접근 방식을 취하여 모달리티들을 하나의 실체로 간주함으로써 행동 인식을 위한 특성 추출을 초기 단계에서 수행할 수 있도록 하였습니다. 장면 흐름을 행동 인식에 활용하는 데 있어 두 가지 핵심 질문이 다루어졌습니다: 장면 흐름 벡터를 어떻게 구성할 것인가, 그리고 장면 흐름 기반으로 비디오의 장기 동역학을 어떻게 표현할 것인가입니다. 이용 가능한 데이터셋에서 장면 흐름을 정확히 계산하기 위해, 우리는 카메라 파라미터에 대한 지식 없이 RGB와 깊이 데이터를 공간적으로 정렬하는 효과적인 자기 교정 방법(self-calibration method)을 제안합니다. 장면 흐름 벡터를 기반으로, 우리는 여러 가지 장기 시공간 동역학을 설명하는 새로운 표현 방법인 '장면 흐름-행동 맵(Scene Flow to Action Map, SFAM)'을 제안합니다. 우리는 채널 변환 커널(channel transform kernel)을 채택하여 장면 흐름 벡터를 RGB와 유사한 최적 색상 공간으로 변환합니다. 이 변환은 ImageNet에서 사전 학습된 ConvNets 모델들의 성능을 더욱 잘 활용할 수 있게 합니다. 실험 결과는 이 새로운 표현 방식이 두 개의 대규모 공개 데이터셋에서 기존 최신 방법론보다 우수한 성능을 보일 수 있음을 나타냅니다.