11일 전

SF-Net: 시간 행동 로컬라이제이션을 위한 단일 프레임 지도

Fan Ma, Linchao Zhu, Yi Yang, Shengxin Zha, Gourab Kundu, Matt Feiszli, Zheng Shou
SF-Net: 시간 행동 로컬라이제이션을 위한 단일 프레임 지도
초록

본 논문에서는 시계열 행동 탐지(Temporal Action Localization, TAL)를 위한 중간 수준의 감독 방식인 단일 프레임 감독(single-frame supervision)을 연구한다. 단일 프레임 감독을 얻기 위해 annotator는 행동의 시간 창 내에서 단 하나의 프레임만 지정하도록 요청한다. 이는 행동 경계를 모두 주석화해야 하는 완전한 감독(full supervision)을 얻는 데 소요되는 노동 비용을 크게 줄일 수 있다. 비디오 전체 레이블만 주석화하는 약한 감독(weak supervision)과 비교할 때, 단일 프레임 감독은 낮은 주석 비용을 유지하면서도 추가적인 시계열 행동 신호를 도입한다. 이러한 단일 프레임 감독을 효과적으로 활용하기 위해, SF-Net이라는 통합형 시스템을 제안한다. 먼저, 각 비디오 프레임에 대해 행동 존재 가능성( actionness score)을 예측하는 방식을 제안한다. 전형적인 카테고리 점수와 함께 행동 존재 가능성 점수를 사용하면, 잠재적 행동의 발생 여부에 대한 종합적인 정보를 제공할 수 있으며, 추론 과정에서 시계열 경계 보정에 기여할 수 있다. 두 번째로, 단일 프레임 주석을 기반으로 가상의 행동 프레임과 배경 프레임을 탐색한다. 각 주석된 단일 프레임을 주변의 맥락적 프레임으로 적응적으로 확장함으로써 가상의 행동 프레임을 식별하고, 여러 비디오에 걸쳐 주석되지 않은 모든 프레임에서 가상의 배경 프레임을 추출한다. 이들 가상 주석 프레임과 진짜 주석 프레임을 함께 활용하여 분류기의 훈련을 수행한다. THUMOS14, GTEA, BEOID에서 수행한 광범위한 실험 결과, SF-Net은 단일 프레임 탐지 및 세그먼트 탐지 모두에서 기존 최고 수준의 약한 감독 방법보다 뚜렷한 성능 향상을 보였다. 특히, 훨씬 더 많은 자원을 요구하는 완전 감독 대비와 비교해도 SF-Net은 유사한 성능을 달성하였다. 코드는 다음 주소에서 공개되어 있다: https://github.com/Flowerfan/SF-Net.

SF-Net: 시간 행동 로컬라이제이션을 위한 단일 프레임 지도 | 최신 연구 논문 | HyperAI초신경