17일 전

비디오 이해를 위한 적응형 중간 표현

Juhana Kangaspunta, AJ Piergiovanni, Rico Jonschkowski, Michael Ryoo, Anelia Angelova
비디오 이해를 위한 적응형 중간 표현
초록

비디오 이해를 위한 일반적인 전략은 RGB 프레임과 광학 흐름에서 유도된 특징을 융합함으로써 공간적 정보와 운동 정보를 통합하는 것이다. 본 연구에서는 비디오 이해를 위한 중간 표현으로 세그멘테이션(semantic segmentation)을 활용하는 새로운 방법을 제안하며, 추가적인 라벨링 없이 이를 활용할 수 있도록 하였다.둘째, 최종 비디오 이해 작업과 함께 중간 표현(광학 흐름 및 세그멘테이션)을 공동으로 학습할 수 있는 일반적인 프레임워크를 제안한다. 이 프레임워크는 중간 표현이 최종 목표에 맞게 적응될 수 있도록 하여, 학습 과정에서의 표현의 유연성을 제공한다. 네트워크 내부에서 중간 표현을 사용함에도 불구하고, 추론 시에는 RGB 시퀀스 외에 추가 데이터가 필요하지 않으며, 단일 네트워크를 통해 효율적인 인식이 가능하다.마지막으로, 진화 알고리즘을 통해 최적의 손실 가중치를 탐색함으로써 최적의 학습 구성(configuration)을 찾는 방법을 제시한다. 이를 통해 기존 최고 수준의 기법을 초월하는 더 강력한 비디오 시각 표현을 얻을 수 있으며, 성능 향상이 가능하다.