
다중 레이블 이미지 분류는 주어진 이미지에서 여러 레이블을 예측할 수 있도록 한다. 다중 클래스 분류와 달리, 각 이미지에 대해 단 하나의 레이블만 할당하는 것이 아니라, 여러 레이블을 동시에 예측할 수 있기 때문에 더 광범위한 응용 분야에 적합하다. 본 연구에서는 다중 레이블 분류의 두 가지 대표적인 접근 방식인 트랜스포머 기반 헤드와 레이블 관계 정보를 처리하는 그래프 기반 분기(branch)를 재검토한다. 트랜스포머 기반 헤드는 그래프 기반 분기보다 더 높은 성능을 달성한다고 여겨지지만, 적절한 학습 전략을 사용할 경우 그래프 기반 방법도 성능 저하가 거의 없이, 추론 시 더 적은 계산 자원을 소모할 수 있음을 주장한다. 본 연구의 학습 전략에서는 다중 레이블 분류의 사실상 표준인 비대칭 손실(Asymmetric Loss, ASL) 대신, 메트릭 학습 기반의 수정된 손실 함수를 도입한다. 각 이진 분류 하위 문제에서 백본(backbone)에서 나온 $L_2$ 정규화된 특징 벡터를 사용하며, 긍정 샘플과 부정 샘플의 정규화된 표현 간의 각도를 가능한 한 크게 유지하도록 강제한다. 이는 비정규화된 특징에 대해 이진 크로스 엔트로피 손실을 사용하는 것보다 더 우수한 분류 능력을 제공한다. 제안하는 손실 함수와 학습 전략을 통해, MS-COCO, PASCAL-VOC, NUS-Wide, Visual Genome 500과 같은 널리 사용되는 다중 레이블 분류 벤치마크에서 단일 모달리티 기반 방법 중 최고 성능(SOTA)을 달성하였다. 본 연구의 소스 코드는 OpenVINO Training Extensions의 일부로 공개되어 있으며, 다음과 같은 링크에서 확인할 수 있다: https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel