
세트 지도(action) 학습 문제에 대해 다룹니다. 이 문제의 목적은 훈련 영상에서 발생하는 행동들의 집합 형태로 약한 지도 정보를 이용하여 행동 분할 모델을 학습하는 것입니다. 본 연구의 핵심 관찰은 동일한 작업(task)에 속한 영상들 내에서 행동들의 순서가 유사하다는 점이며, 이러한 유사성을 효과적인 학습에 활용할 수 있습니다. 이를 바탕으로, 동일한 작업 내의 두 영상에서 공통으로 나타나는 행동 쌍에 대해 각 행동의 주의(attention)가 유사한 순서를 따르도록 유도하는 새로운 쌍별 순서 일관성(Pairwise Ordering Consistency, POC) 손실 함수를 제안합니다. 기존의 시퀀스 정렬 방법과 달리, 행동 순서가 다른 영상들 사이에서 행동을 잘못 정렬하거나, 더 일관성 있는 순서와 덜 일관성 있는 순서를 신뢰할 수 있게 구분하지 못하는 문제를 해결합니다. 본 연구의 POC 손실은 서로 다른 행동 순서를 가진 영상들을 효율적으로 정렬할 수 있으며, 미분 가능하여 엔드투엔드(end-to-end) 학습이 가능합니다. 또한, 기존 연구에서 요구되던 시간이 많이 소요되는 가상 레이블(pseudo-label) 생성 과정을 피할 수 있습니다. 제안한 방법은 행동과 그 시간적 위치를 효율적으로 학습할 수 있어, 기존의 주의 기반 행동 탐지 방법을 단일 행동 학습에서 다중 행동 학습으로 확장합니다. 이를 위해 영상 수준 및 프레임 수준의 손실과 함께 POC 손실을 사용합니다. 세 가지 데이터셋에 대한 실험을 통해 제안 방법이 기존 최고 성능을 크게 개선함을 입증합니다. 또한, 소규모 수정만으로도 학습 중에 행동과 그 순서가 제공되는 전사 지도(transcript-supervised) 행동 학습 문제에도 효과적으로 적용 가능함을 보여줍니다.