당신의 '플레임코'는 내 '버드'다: 세밀한 조정이 가능한가, 그렇지 않은가

그림 1에서 보이는 것이 '핑구'인지, 아니면 단순히 '새'인지 여부는 본 논문에서 다루는 핵심 질문이다. 정교한 시각 분류(FGVC)는 이 질문에 대해 '핑구'라는 정밀한 답을 도출하려는 데에 그 목적이 있다. 그러나 대부분의 비전문가들에게는 '새'라는 일반적인 분류로도 충분할 것이다. 따라서 진정한 질문은 다음과 같다. 즉, 다양한 전문성 수준에 따라 어떻게 다른 정교한 정의에 맞춰 분류를 조정할 수 있을까? 이를 해결하기 위해 우리는 기존의 단일 레이블 분류라는 전통적인 FGVC 설정을 재정의하여, 사전 정의된 거시적에서 미시적인 레이블 계층 구조를 상향식으로 탐색하는 방식으로 전환한다. 이에 따라 우리의 분류 결과는 '새' → '핑구목' → '핑구과' → '핑구'의 순서로 도출된다. 이러한 새로운 문제에 접근하기 위해 먼저, 사람들의 인지 패턴을 종합적으로 분석하는 실험을 수행하였으며, 전문가 여부와 관계없이 대부분의 참가자가 다단계의 분류 레이블을 선호함을 확인하였다. 그 다음, 핵심 통찰을 발견하였다. 즉, 거시적 레이블 예측은 미세한 특징 학습을 강화하지만, 반대로 미세한 수준의 특징은 거시적 분류기의 학습을 보다 효과적으로 개선한다는 점이다. 이 통찰은 새로운 문제에 대한 매우 간단하면서도 놀라울 정도로 효과적인 해결책 설계를 가능하게 한다. 구체적으로는 (i) 거시적 특징과 미세한 특징을 분리하기 위해 각 레벨에 특화된 분류 헤드를 활용하고, (ii) 미세한 수준의 특징이 더 거시적인 레이블 예측에 참여하도록 허용함으로써, 더 나은 특징 분리가 가능해진다. 실험 결과, 제안한 방법은 새로운 FGVC 설정에서 뛰어난 성능을 보였으며, 기존의 단일 레이블 FGVC 문제에서도 최첨단 기법보다 우수한 성능을 달성하였다. 본 방법은 구조가 간단하여 기존의 어떤 FGVC 프레임워크 위에 쉽게 통합 가능하며, 추가적인 학습 파라미터 없이도 적용이 가능하다.