다중 인물 3D 자세 추정을 위한 순서 불변 관계 네트워크

단일 RGB 이미지에서 다중 인물의 3D 자세를 복원하는 것은 본질적인 2D-3D 깊이 모호성, 인물 간 가림 현상, 그리고 신체 절단 등으로 인해 매우 불안정한 문제입니다. 이러한 문제를 해결하기 위해 최근 연구에서는 여러 사람을 동시에 고려하는 방법으로 유망한 결과를 보여주었습니다. 그러나 대부분의 경우, 이는 단순히 두 사람 간 상호작용만을 고려하여 수행되므로 장거리 상호작용을 포착할 수 있는 전체적인 장면 표현에 제약이 있습니다. 이 문제는 모든 인물을 공동으로 처리하는 접근 방식으로 해결될 수 있지만, 이 방법은 참조로 사용될 개인과 사전 정의된 인물 순서를 지정해야 하며, 이러한 선택에 민감합니다. 본 논문에서는 이러한 제약들을 극복하고 입력 순서와 무관하게 장거리 상호작용을 포착할 수 있는 다중 인물 3D 자세 추정 방법을 제안합니다. 이를 위해 우리는 잔차형태의 순열 불변 네트워크를 구축하여 오프더셀프 검출기에서 추정된 초기 3D 자세가 손상되었을 가능성을 성공적으로 개선하였습니다. 잔차 함수는 모든 초기 자세 간의 상호작용을 모델링하는 Set Transformer 블록을 통해 학습되며, 이들의 순서나 수와 관계없이 작동합니다. 철저한 평가를 통해 우리의 접근 방식이 초기 추정 3D 자세의 성능을 크게 향상시키고 표준 벤치마크에서 최신 기술 수준의 결과를 달성함을 입증하였습니다. 또한 제안된 모듈은 계산 효율적으로 작동하며 다중 인물 장면에서 어떤 3D 자세 검출기에도 추가적으로 활용될 수 있는 잠재력을 가지고 있습니다.