
행동 인식은 계산적으로 비용이 큰 작업이다. 본 논문에서는 행동 인식 정확도를 향상시키기 위해 프레임 선택 문제를 다룬다. 특히, 긴 비디오에서의 불필요한 콘텐츠를 제거할 수 있는 장점이 있는 기존 연구들과 달리, 우리는 더 전통적이고 표준적인 짧고 트리밍된 비디오 환경에서도 좋은 프레임 선택이 행동 인식 성능에 긍정적인 영향을 미칠 수 있음을 보여준다. 최근의 연구들은 긴 비트리밍 비디오에서 유의미하지 않은 부분이 많아 프레임 선택을 통해 효율성을 높이는 데 성공했다. 그러나 본 연구에서는 이러한 긴 비디오가 아닌, 더 일반적인 짧고 트리밍된 행동 인식 문제에 초점을 맞춘다. 우리는 좋은 프레임 선택이 행동 인식의 계산 비용을 줄이는 것뿐만 아니라, 분류하기 어려운 프레임을 제거함으로써 정확도를 향상시킬 수 있음을 주장한다. 기존의 연구와 달리, 본 논문에서는 단일 프레임을 개별적으로 고려하는 방식이 아닌, 프레임들을 종합적으로 고려하는 방법을 제안한다. 이는 비디오 전체에 걸쳐 좋은 프레임이 보다 효율적으로 분포되도록 하여, 이야기를 전달하는 스토리보드처럼 작용하게 한다. 제안된 프레임 선택 기법을 SMART(Spatiotemporal-aware, Multi-frame, Adaptive, and Robust selection Technique)라 명명하였으며, 다양한 백본 아키텍처와 여러 벤치마크(킨etics, 스omething-something, UCF101)에서 테스트하였다. 결과적으로 SMART 프레임 선택 기법은 다른 프레임 선택 전략에 비해 일관되게 정확도를 향상시키면서도 계산 비용을 4~10배까지 감소시킴을 입증하였다. 또한, 주된 목표가 인식 성능 향상이라면, 본 연구의 선택 전략이 다양한 벤치마크(UFC101, HMDB51, FCVID, ActivityNet)에서 최근 최고 수준의 모델 및 프레임 선택 기법을 초월할 수 있음을 보였다.