2달 전
RGB와 포즈 정보를 사용한 두 스트림 컨볼루션 네트워크를 이용한 세부 행동 인식
Hacker, Leonard ; Bartels, Finn ; Martin, Pierre-Etienne

초록
MediaEval 2022 스포츠 태스크의 참가자로서, 우리는 탁구 스트로크의 분류 및 감지를 위한 두 개의 스트림 네트워크 접근 방식을 제안합니다. 각 스트림은 어텐션 메커니즘을 사용하는 3D 컨볼루셔널 신경망(CNN) 블록들의 연속체입니다. 각 스트림은 서로 다른 4D 입력을 처리합니다. 우리의 방법은 원시 RGB 데이터와 MMPose 도구상자에서 계산된 포즈 정보를 활용합니다. 포즈 정보는 검은 배경이나 원래 RGB 프레임 위에 적용하여 이미지로 처리됩니다. 최고 성능은 하나의 스트림에는 원시 RGB 데이터를, 다른 스트림에는 포즈 + RGB(PRGB) 정보를 입력하고, 특성에 대해 후기 융합(late fusion)을 적용할 때 얻어집니다. 이 접근 방식들은 제공된 TTStroke-21 데이터 세트에서 평가되었습니다. 우리는 스트로크 분류에서 정확도가 87.3%에 달하는 개선을 보고할 수 있으며, 감지는 베이스라인을 능가하지는 않았지만 여전히 IoU(Intersection over Union)가 0.349이고 mAP(mean Average Precision)가 0.110을 기록했습니다.