9일 전

AdaBrowse: 효율적인 지속적 수어 인식을 위한 적응형 비디오 브라우저

Lianyu Hu, Liqing Gao, Zekang Liu, Chi-Man Pun, Wei Feng
AdaBrowse: 효율적인 지속적 수어 인식을 위한 적응형 비디오 브라우저
초록

원시 영상은 많은 경우에 정확한 인식을 위해 충분한 정보를 이미 포함하고 있음에도 불구하고 상당한 특징 중복성을 가지고 있음이 입증되었다. 본 논문에서는 이러한 중복성이 지속적 수어 인식(Continuous Sign Language Recognition, CSLR)에서 효율적인 추론을 촉진하는 데 효과적으로 활용될 수 있는지에 관심을 두었다. 이를 위해 우리는 이 문제를 순차적 결정 과제로 모델링함으로써 입력 영상 시퀀스에서 가장 정보량이 큰 하위 시퀀스를 동적으로 선택하는 새로운 적응형 모델(AdaBrowse)을 제안한다. 구체적으로, 먼저 경량 네트워크를 사용하여 입력 영상을 빠르게 스캔하여 거시적 특징을 추출한 후, 이러한 특징을 정책 네트워크에 입력하여 처리할 하위 시퀀스를 지능적으로 선택한다. 선택된 하위 시퀀스는 일반적인 CSLR 모델을 통해 문장 예측을 수행한다. 이 과정에서 전체 프레임이 아닌 일부 프레임만 처리되므로 전체 계산량을 크게 절감할 수 있다. 또한 시간적 중복성 외에도, 내재된 공간적 중복성도 원활하게 통합하여 보다 높은 효율성을 달성할 수 있는지에 관심을 두었으며, 이를 위해 각 샘플에 대해 동적으로 최소 입력 해상도를 선택하는 모델을 제안하였으며, 이를 AdaBrowse+라 한다. PHOENIX14, PHOENIX14-T, CSL-Daily, CSL 등 네 개의 대규모 CSLR 데이터셋에서 실시한 광범위한 실험 결과는 AdaBrowse와 AdaBrowse+가 최첨단 기법과 비슷한 정확도를 달성하면서도 1.44배 높은 처리량과 2.12배 적은 FLOPs를 기록함으로써 그 효과성을 입증하였다. 다양한 일반적으로 사용되는 2D CNN 및 적응형 효율적 방법과의 비교를 통해 AdaBrowse의 우수성 또한 확인되었다. 코드는 \url{https://github.com/hulianyuyy/AdaBrowse}에서 공개되어 있다.

AdaBrowse: 효율적인 지속적 수어 인식을 위한 적응형 비디오 브라우저 | 최신 연구 논문 | HyperAI초신경