2달 전

마이크로 동작 인식 벤치마킹: 데이터셋, 방법론, 및 응용 프로그램

Guo, Dan ; Li, Kun ; Hu, Bin ; Zhang, Yan ; Wang, Meng
마이크로 동작 인식 벤치마킹: 데이터셋, 방법론, 및 응용 프로그램
초록

미세행동(micro-action)은 낮은 강도의 움직임을 특징으로 하는 인식되지 않는 비언어적 행동입니다. 이는 개인의 감정과 의도에 대한 통찰력을 제공하며, 감정 인식 및 심리 평가와 같은 인간 중심 응용 분야에서 중요합니다. 그러나 일상생활에서 이러한 미묘한 인간 행동이 인식되지 않고 접근하기 어려운 성질 때문에 미세행동의 식별, 차별화, 이해가 어려움을 겪고 있습니다. 본 연구에서는 혁신적으로 새로운 미세행동 데이터셋인 '미세행동-52(Micro-action-52, MA-52)'를 수집하고, 미세행동 인식(micro-action recognition, MAR) 작업을 위한 벤치마크인 '미세행동 네트워크(micro-action network, MANet)'를 제안합니다. 특히, MA-52는 제스처, 상체 및 하체 움직임을 포함하여 전체적인 몸짓 관점을 제공하려고 시도하여 종합적인 미세행동 신호를 밝히는데 기여합니다. 구체적으로, MA-52는 52개의 미세행동 카테고리와 7개의 신체 부위 라벨을 포함하며, 심리面接에서 수집된 205명의 참가자와 22,422개의 동영상 샘플로 구성되어 현실적이고 자연스러운 다양한 미세행동을 포괄하고 있습니다.기존 데이터셋을 바탕으로 MANet 및 다른 9개의 주요 행동 인식 방법들을 평가하였습니다. MANet은 ResNet 아키텍처에 스queeze-and-excitation(SE) 및 시간 이동 모듈(temporal shift module, TSM)을 통합하여 미세행동의 시공간 특성을 모델링합니다. 그런 다음 동영상과 행동 라벨 간의 의미적 일치를 위해 공동 임베딩 손실(joint-embedding loss)이 설계되었습니다; 이 손실 함수는 시각적으로 유사하지만 서로 다른 미세행동 카테고리를 더 잘 구분하는 데 사용됩니다. 감정 인식 분야에서 확장된 적용 사례는 우리가 제안한 데이터셋과 방법론의 중요한 가치 중 하나를 입증하였습니다. 향후에는 인간 행동, 감정 및 심리 평가에 대한 더욱 깊이 있는 탐구가 이루어질 것입니다. 데이터셋과 소스 코드는 https://github.com/VUT-HFUT/Micro-Action 에서 공개되었습니다.注释:1. "面接"(면접)在上下文中应为“interview”,但根据韩语习惯,这里使用了“심리面接”来表示“psychological interview”。为了保持一致性,建议将“面接”替换为“심리면접”。修正后的版本如下:미세행동(micro-action)은 낮은 강도의 움직임을 특징으로 하는 인식되지 않는 비언어적 행동입니다. 이는 개인의 감정과 의도에 대한 통찰력을 제공하며, 감정 인식 및 심리 평가와 같은 인간 중심 응용 분야에서 중요합니다. 그러나 일상생활에서 이러한 미묘한 인간 행동이 인식되지 않고 접근하기 어려운 성질 때문에 미세행동의 식별, 차별화, 이해가 어려움을 겪고 있습니다. 본 연구에서는 혁신적으로 새로운 미세행동 데이터셋인 '미세행동-52(Micro-action-52, MA-52)'를 수집하고, 미세행동 인식(micro-action recognition, MAR) 작업을 위한 벤치마크인 '미세행동 네트워크(micro-action network, MANet)'를 제안합니다. 특히, MA-52는 제스처, 상체 및 하체 움직임을 포함하여 전체적인 몸짓 관점을 제공하려고 시도하여 종합적인 미세행동 신호를 밝히는데 기여합니다. 구체적으로, MA-52는 52개의 미세행동 카테고리와 7개의 신체 부위 라벨을 포함하며, 심리면접에서 수집된 205명의 참가자와 22,422개의 동영상 샘플로 구성되어 현실적이고 자연스러운 다양한 미세행동을 포괄하고 있습니다.기존 데이터셋을 바탕으로 MANet 및 다른 9개의 주요 행동 인식 방법들을 평가하였습니다. MANet은 ResNet 아키텍처에 스queeze-and-excitation(SE) 및 시간 이동 모듈(temporal shift module, TSM)을 통합하여 미세행동의 시공간 특성을 모델링합니다. 그런 다음 동영상과 행동 라벨 간의 의미적 일치를 위해 공동 임베딩 손실(joint-embedding loss)이 설계되었습니다; 이 손실 함수는 시각적으로 유사하지만 서로 다른 미세행동 카테고리를 더 잘 구분하는 데 사용됩니다. 감정 인식 분야에서 확장된 적용 사례는 우리가 제안한 데이터셋과 방법론의 중요한 가치 중 하나를 입증하였습니다. 향후에는 인간 행동, 감정 및 심리 평가에 대한 더욱 깊이 있는 탐구가 이루어질 것입니다. 데이터셋과 소스 코드는 https://github.com/VUT-HFUT/Micro-Action 에서 공개되었습니다。