17일 전
3D CNN 아키텍처에서 BERT를 활용한 동작 인식을 위한 후기 시계열 모델링
M. Esat Kalfaoglu, Sinan Kalkan, A. Aydin Alatan

초록
이 연구에서는 동작 인식을 위해 3차원 컨볼루션과 후기 시계열 모델링을 결합한다. 이를 위해 기존 3차원 컨볼루션 아키텍처의 마지막 부분에 사용되는 전통적인 시계열 전역 평균 풀링(TGAP) 레이어를, BERT(Bidirectional Encoder Representations from Transformers) 레이어로 대체함으로써 BERT의 어텐션 메커니즘을 활용하여 시계열 정보를 보다 효과적으로 활용한다. 본 연구에서는 이와 같은 대체가 ResNeXt, I3D, SlowFast, R(2+1)D를 포함한 다양한 인기 있는 3차원 컨볼루션 아키텍처의 동작 인식 성능을 향상시킴을 보여준다. 또한, HMDB51 및 UCF101 데이터셋에서 각각 85.10%, 98.69%의 상위 1 정확도로 최신 기술 수준의 성능을 달성하였다. 코드는 공개되어 있다.