자신을 주목하라: 키포인트 검출 및 인스턴스 인식 연관성을 위한 자기 주의 감독

본 논문은 Transformer를 사용하여 키포인트 검출과 인스턴스 연관성을 해결하는 새로운 방법을 제시합니다. 하향식 다중 사람 자세 추정 모델의 경우, 키포인트를 검출하고 키포인트 간의 연관 정보를 학습해야 합니다. 우리는 이러한 문제들이 Transformer를 통해 완전히 해결될 수 있다고 주장합니다. 특히, Transformer의 자기 주의(self-attention)는 임의의 위치 쌍 사이의 의존성을 측정할 수 있어, 이는 키포인트 그룹화에 필요한 연관 정보를 제공할 수 있습니다. 그러나 단순한 주의 패턴은 여전히 주관적으로 제어되지 않으므로, 키포인트가 항상 자신이 속한 인스턴스에 주목할 것이라는 보장이 없습니다. 이를 해결하기 위해 우리는 다중 사람 키포인트 검출과 인스턴스 연관성을 위한 자기 주의 감독 방법을 제안합니다. 인스턴스 마스크(instance masks)를 사용하여 자기 주의가 인스턴스 인지(instance-aware) 되도록 감독함으로써, 사전 정의된 오프셋 벡터 필드나 CNN 기반 하향식 모델에서 사용되는 임베딩(embedding) 없이도 쌍별 주의 점수(pairwise attention scores)에 따라 검출된 키포인트들을 해당 인스턴스에 할당할 수 있습니다. 우리 방법의 추가적인 장점은 감독된 주의 행렬로부터 임의로 많은 사람들의 인스턴스 분할 결과를 직접 얻을 수 있다는 것입니다. 이는 픽셀 할당 파이프라인을 단순화하는 데 도움이 됩니다. COCO 다중 사람 키포인트 검출 도전 과제와 사람 인스턴스 분할 작업에서 수행한 실험들은 제안된 방법의 효과성과 단순성을 입증하며, 특정 목적을 위해 자기 주의 행동을 제어하는 유망한 방향을 제시합니다.