11일 전

메트릭 학습과 어텐션 헤드의 통합을 통한 정확하고 효율적인 다중 레이블 이미지 분류

Kirill Prokofiev, Vladislav Sovrasov
메트릭 학습과 어텐션 헤드의 통합을 통한 정확하고 효율적인 다중 레이블 이미지 분류
초록

다중 레이블 이미지 분류는 주어진 이미지에서 여러 레이블을 예측할 수 있도록 한다. 다중 클래스 분류와 달리, 각 이미지에 대해 단 하나의 레이블만 할당하는 것이 아니라, 여러 레이블을 동시에 예측할 수 있기 때문에 더 광범위한 응용 분야에 적합하다. 본 연구에서는 다중 레이블 분류의 두 가지 대표적인 접근 방식인 트랜스포머 기반 헤드와 레이블 관계 정보를 처리하는 그래프 기반 분기(branch)를 재검토한다. 트랜스포머 기반 헤드는 그래프 기반 분기보다 더 높은 성능을 달성한다고 여겨지지만, 적절한 학습 전략을 사용할 경우 그래프 기반 방법도 성능 저하가 거의 없이, 추론 시 더 적은 계산 자원을 소모할 수 있음을 주장한다. 본 연구의 학습 전략에서는 다중 레이블 분류의 사실상 표준인 비대칭 손실(Asymmetric Loss, ASL) 대신, 메트릭 학습 기반의 수정된 손실 함수를 도입한다. 각 이진 분류 하위 문제에서 백본(backbone)에서 나온 $L_2$ 정규화된 특징 벡터를 사용하며, 긍정 샘플과 부정 샘플의 정규화된 표현 간의 각도를 가능한 한 크게 유지하도록 강제한다. 이는 비정규화된 특징에 대해 이진 크로스 엔트로피 손실을 사용하는 것보다 더 우수한 분류 능력을 제공한다. 제안하는 손실 함수와 학습 전략을 통해, MS-COCO, PASCAL-VOC, NUS-Wide, Visual Genome 500과 같은 널리 사용되는 다중 레이블 분류 벤치마크에서 단일 모달리티 기반 방법 중 최고 성능(SOTA)을 달성하였다. 본 연구의 소스 코드는 OpenVINO Training Extensions의 일부로 공개되어 있으며, 다음과 같은 링크에서 확인할 수 있다: https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel