2달 전

비디오 이해를 위한 동작 표현의 엔드투엔드 학습

Lijie Fan; Wenbing Huang; Chuang Gan; Stefano Ermon; Boqing Gong; Junzhou Huang
비디오 이해를 위한 동작 표현의 엔드투엔드 학습
초록

최근 엔드투엔드 학습된 표현이 성공을 거두었음에도 불구하고, 수작업으로 만든 광학 흐름 특징은 여전히 비디오 분석 작업에서 널리 사용되고 있습니다. 이 간극을 메우기 위해, 우리는 TVNet이라는 새로운 엔드투엔드 학습 가능한 신경망을 제안합니다. 이는 데이터로부터 광학 흐름과 유사한 특징을 학습하도록 설계되었습니다. TVNet은 특정 광학 흐름 솔버인 TV-L1 방법을 포함하며, 그 최적화 반복 과정을 신경망 계층으로 전개하여 초기화됩니다. 따라서 TVNet은 추가적인 학습 없이도 직접 사용할 수 있습니다. 또한, 다른 작업별 신경망과 자연스럽게 연결하여 엔드투엔드 아키텍처를 구성할 수 있어, 현재의 다단계 접근 방식보다 더 효율적이며 디스크에 특징을 미리 계산하고 저장하는 단계를 생략할 수 있습니다. 마지막으로, TVNet의 매개변수는 엔드투엔드 학습을 통해 더욱 세밀하게 조정될 수 있습니다. 이를 통해 TVNet은 정확한 광학 흐름 외에도 더 풍부하고 작업별로 맞춤화된 패턴을 학습할 수 있게 됩니다. 두 가지 행동 인식 벤치마크에 대한 광범위한 실험 결과가 제안된 접근 방식의 효과성을 검증하였습니다. 우리의 TVNet은 모든 비교 대상 방법보다 더 높은 정확도를 달성하였으며, 특징 추출 시간 측면에서는 가장 빠른 대응 방법과 경쟁력이 있음을 보여주었습니다.

비디오 이해를 위한 동작 표현의 엔드투엔드 학습 | 최신 연구 논문 | HyperAI초신경