11일 전

BIT: 효율적인 감독형 동작 세그멘테이션을 위한 이중 수준 시계열 모델링

Zijia Lu, Ehsan Elhamifar
BIT: 효율적인 감독형 동작 세그멘테이션을 위한 이중 수준 시계열 모델링
초록

감독형 행동 분할(task of supervised action segmentation)은 비디오를 겹치지 않는 구간으로 나누어 각 구간이 서로 다른 행동을 나타내도록 하는 것을 목표로 한다. 최근 연구들은 프레임 수준에서 시간적 모델링을 수행하기 위해 트랜스포머를 적용하고 있으나, 이는 높은 계산 비용을 수반하며 장시간에 걸친 행동 간 의존성을 효과적으로 포착하지 못하는 문제가 있다. 이러한 문제를 해결하기 위해, 우리는 행동 구간을 나타내는 명시적인 행동 토큰(implicit action tokens)을 학습하고, 프레임 수준과 행동 수준에서 병렬로 시간적 모델링을 수행하면서도 낮은 계산 비용을 유지할 수 있는 효율적인 이중 수준 시간 모델링(BI-level Temporal modeling, BIT) 프레임워크를 제안한다. 본 모델은 (i) 프레임 수준의 관계를 학습하기 위해 컨볼루션을 사용하는 프레임 브랜치, (ii) 소수의 행동 토큰을 사용하여 행동 수준의 의존성을 학습하는 트랜스포머 기반의 행동 브랜치, 그리고 (iii) 두 브랜치 간의 상호작용을 가능하게 하는 크로스 어텐션(cross-attention)을 포함한다. 또한, 각 행동 토큰이 하나 이상의 행동 구간을 대표할 수 있도록 세트 예측(set-prediction) 목적함수를 적용 및 확장함으로써, 긴 비디오 내에 많은 행동 구간이 존재할 경우에도 대량의 토큰을 학습할 필요 없이 효율적으로 처리할 수 있다. 본 연구의 행동 브랜치 설계 덕분에, 비디오의 텍스트 전사본(텍스트 트랜스크립트)이 제공되는 경우 이를 활용하여 행동 토큰을 초기화함으로써 행동 분할을 보다 효과적으로 수행할 수 있다. 제안한 모델은 두 개의 에고센터(egocentric) 및 두 개의 타인 시점(third-person) 비디오 데이터셋에서 전사본이 있는 경우와 없는 경우를 모두 고려하여 행동 분할 성능을 평가하였으며, 기존의 트랜스포머 기반 방법에 비해 상태 최고 수준의 정확도를 크게 향상시켰고, 계산 비용은 약 30배 더 낮은 수준(30배 빠름)을 기록하였다.

BIT: 효율적인 감독형 동작 세그멘테이션을 위한 이중 수준 시계열 모델링 | 최신 연구 논문 | HyperAI초신경