2달 전

대상에 맞추어, 이미지가 아닌: 세부 인식을 위한 통합된 자세 맞춤 표현

Pei Guo; Ryan Farrell
대상에 맞추어, 이미지가 아닌: 세부 인식을 위한 통합된 자세 맞춤 표현
초록

자세에 따른 극적인 외관 변화는 세부 인식(fine-grained recognition)에서 큰 도전을 이루고 있으며, 최근 주의 메커니즘(attention mechanisms)이나 이차 통계량(second-order statistics)을 사용하는 방법들조차도 이를 충분히 해결하지 못하고 있습니다. 현대의 CNNs는 일반적으로 객체 자세에 대한 명시적인 이해가 부족하며, 대신 얽힌 자세와 외관에 혼동됩니다. 본 논문에서는 계층적 자세 정렬 영역(hierarchy of pose-aligned regions)으로 구성된 통합 객체 표현(unified object representation)을 제안합니다. 이미지 축에 정렬된 영역으로 객체를 표현하는 것이 아니라, 제안된 표현은 자세 정렬 패치(pose-aligned patches)를 사용하여 객체의 자세에 상대적인 외관을 특징화하며, 이러한 패치의 특성은 자세, 크기 및 회전의 변동에 견고합니다. 우리는 자세 추정(pose estimation)을 수행하고 계층적 자세 정렬 영역 특성을 연결(concatenation)하여 통합 객체 표현을 형성하는 알고리즘을 제안합니다. 이 알고리즘은 분류 네트워크(classification network)로 전달되며, 제안된 알고리즘은 다른 접근 방식들을 능가하여 널리 사용되는 CUB-200 데이터셋에서 최신 기술(state-of-the-art)보다 거의 2% 높은 성능을 보였으며, 훨씬 더 큰 NABirds 데이터셋에서는 8% 이상 성능이 향상되었습니다. 이 패러다임이 경쟁 방법들에 비해 효과적이라는 점은 세부 인식 분야에서 지속적인 발전을 위해 자세와 외관의 분리를 중요하게 만드는 것을 시사합니다.

대상에 맞추어, 이미지가 아닌: 세부 인식을 위한 통합된 자세 맞춤 표현 | 최신 연구 논문 | HyperAI초신경