18일 전

리슨 투 룩: 사전 오디오 미리 보기 기반 동작 인식

Ruohan Gao, Tae-Hyun Oh, Kristen Grauman, Lorenzo Torresani
리슨 투 룩: 사전 오디오 미리 보기 기반 동작 인식
초록

영상 데이터의 폭발적 증가에 대응하여, 현재의 고비용 클립 수준 분류기는 점점 더 비현실적인 접근이 되고 있다. 본 연구에서는 짧은 시간 및 긴 시간 범위 내 시각적 중복을 제거하기 위해 음성을 사전 탐지 기능으로 활용하는, 비정형 영상에서 효율적인 동작 인식을 위한 프레임워크를 제안한다. 먼저, 단일 프레임과 그에 동반되는 음성과 같은 가벼운 모달리티로부터 특징을 정제함으로써 클립 수준의 특징을 추측하는 ImgAud2Vid 프레임워크를 설계하여, 효율적인 클립 수준 인식을 위한 단기 시간적 중복을 감소시킨다. 두 번째로, ImgAud2Vid 기반으로, 반복적으로 비정형 영상 내 유용한 순간을 선택하는 주의 기반 장단기 기억망(Long Short-Term Memory, LSTM)인 ImgAud-Skimming을 제안함으로써, 영상 수준 인식을 위한 장기 시간적 중복을 줄인다. 네 가지 동작 인식 데이터셋에서 실시한 광범위한 실험 결과, 제안한 방법이 인식 정확도와 속도 측면에서 기존 최고 수준의 성능을 달성함을 입증하였다.

리슨 투 룩: 사전 오디오 미리 보기 기반 동작 인식 | 최신 연구 논문 | HyperAI초신경