16일 전

경계 인식 쿼리 투표를 통한 효율적인 시계열 행동 세그멘테이션

Peiyao Wang, Yuewei Lin, Erik Blasch, Jie Wei, Haibin Ling
경계 인식 쿼리 투표를 통한 효율적인 시계열 행동 세그멘테이션
초록

최근 몇 년간 시계열 행동 분할(Temporal Action Segmentation, TAS)의 성능은 향상되었지만, 밀도 높은 입력, 복잡한 모델 구조, 그리고 자원 소모가 큰 후처리 요구 사항으로 인해 높은 계산 비용이 수반되는 경우가 많다. 성능을 유지하면서도 효율성을 개선하기 위해, 본 연구는 각 세그먼트에 대한 분류에 초점을 맞춘 새로운 관점을 제안한다. 트랜스포머(Transformer)의 능력을 활용하여 각 비디오 세그먼트를 인스턴스 토큰으로 토크나이즈하고, 내재된 인스턴스 분할 기능을 부여한다. 효율적인 행동 분할을 실현하기 위해, 경계를 인지하는 트랜스포머 네트워크인 BaFormer을 제안한다. BaFormer은 인스턴스 분할을 위해 인스턴스 쿼리를 사용하고, 클래스 무관한 경계 예측을 위해 전역 쿼리를 활용하여 연속적인 세그먼트 후보를 생성한다. 추론 과정에서는 단순하면서도 효과적인 투표 전략을 적용하여, 인스턴스 분할 기반으로 경계 기반 세그먼트를 분류한다. 주목할 점은 단일 스테이지 방식임에도 불구하고 BaFormer이 최첨단 기법인 DiffAct 대비 실행 시간의 단 6%만을 사용하면서도 여러 주요 벤치마크에서 더 나은 또는 동등한 정확도를 달성했다는 점이다. 본 프로젝트의 코드는 공개되어 있으며, https://github.com/peiyao-w/BaFormer 에서 확인할 수 있다.

경계 인식 쿼리 투표를 통한 효율적인 시계열 행동 세그멘테이션 | 최신 연구 논문 | HyperAI초신경