17일 전

에고세트릭 절차적 작업 영상에 대한 진전 인식 온라인 동작 세그멘테이션

{Ehsan Elhamifar, YuHan Shen}
에고세트릭 절차적 작업 영상에 대한 진전 인식 온라인 동작 세그멘테이션
초록

우리는 자기중심 절차적 작업 영상에 대한 온라인 행동 분할 문제를 다룬다. 기존 연구들은 주로 전체 영상이 학습 및 추론 시 모두 이용 가능한 오프라인 행동 분할에 집중해 왔지만, AR/VR 작업 보조기 같은 실용적 응용을 위해서는 온라인 행동 분할로의 전환이 필수적이다. 특히, 오프라인으로 학습된 모델을 직접 온라인 추론에 적용할 경우 학습과 추론 간의 일관성 부족으로 인해 성능이 크게 저하된다. 이를 해결하기 위해 우리는 다음과 같은 세 가지 핵심 기법을 제안하는 온라인 행동 분할 프레임워크를 제안한다. 첫째, 기존 아키텍처를 인과적(causal) 구조로 수정하여 실시간 처리에 적합하게 한다. 둘째, 현재 진행 중인 행동의 진행도를 동적으로 추정하는 새로운 행동 진행도 예측 모듈을 개발하고, 이를 통해 인과적 행동 분할의 예측을 보정한다. 셋째, 학습 영상으로부터 작업 그래프(task graph)를 학습하고, 이를 활용하여 매끄럽고 절차 일관성 있는 분할 결과를 도출한다. 인과적 행동 분할과 진행도 정보, 작업 그래프를 통합함으로써, 본 프레임워크는 온라인 행동 분할에서 발생하는 예측 불확실성과 과도한 분할 문제를 효과적으로 해결하며, 세 가지 자기중심 데이터셋에서 상당한 성능 향상을 달성한다.