
우리는 비디오의 프레임 단위 동작 레이블을 예측하는 감독형 동작 세그멘테이션을 연구한다. 기존의 방법들은 장기적인 시계적 의존성을 모델링하기 위해 either 프레임 단위 특징을 트랜스포머로 개선하거나, 학습된 동작 특징으로 프레임 단위 예측을 정제하는 방식을 사용한다. 그러나 이러한 접근은 계산 비용이 높으며, 프레임 특징과 동작 특징이 서로 보완적인 정보를 포함하고 있음에도 이를 무시한다는 한계가 있다. 이러한 정보는 두 특징을 개선하고 시계적 모델링 성능을 향상시키는 데 활용될 수 있다. 따라서 우리는 프레임과 동작 특징을 병렬로 처리하면서, 이 병렬 구조를 활용해 두 특징 간 반복적인 양방향 정보 전달을 가능하게 하는 효율적인 Frame-Action Cross-attention Temporal modeling (FACT) 프레임워크를 제안한다. FACT 네트워크는 (i) 컨볼루션과 프레임 특징을 사용해 프레임 수준의 정보를 학습하는 프레임 브랜치, (ii) 트랜스포머와 동작 토큰을 활용해 동작 수준의 의존성을 학습하는 동작 브랜치, 그리고 (iii) 두 브랜치 간의 통신을 가능하게 하는 크로스 어텐션을 포함한다. 또한 각 동작 토큰이 하나의 동작 세그먼트를 고유하게 인코딩하도록 보장하는 새로운 매칭 손실 함수를 제안하여, 동작의 의미를 더 잘 포착할 수 있도록 한다. 본 연구의 아키텍처 덕분에, 비디오의 텍스트 전사 정보도 활용하여 동작 세그멘테이션 성능을 향상시킬 수 있다. FACT는 두 개의 이고센트릭 및 두 개의 타인관점 비디오 데이터셋에서 전사 정보 유무에 관계없이 동작 세그멘테이션 작업을 평가하였으며, 기존 트랜스포머 기반 방법보다 3배 빠른 계산 속도를 제공하면서도 최신 기술 대비 유의미한 정확도 향상을 달성하였다.