11일 전

Query2Label: 다중 레이블 분류를 위한 간단한 Transformer 방식

Shilong Liu, Lei Zhang, Xiao Yang, Hang Su, Jun Zhu
Query2Label: 다중 레이블 분류를 위한 간단한 Transformer 방식
초록

이 논문은 다중 레이블 분류 문제를 해결하기 위한 간단하면서도 효과적인 접근법을 제안한다. 제안된 방법은 Transformer 디코더를 활용하여 특정 클래스 레이블의 존재 여부를 쿼리하는 방식이다. Transformer의 사용은 이미지 내 다수의 객체가 존재함에 따라, 각각의 레이블에 대해 적응적으로 국소적인 구분 특징을 추출해야 한다는 필요성에서 비롯된다. 이는 매우 바람직한 특성이다. Transformer 디코더 내장의 크로스 어텐션 모듈은 레이블 임베딩을 쿼리로 사용하여, 시각 백본( vision backbone)이 계산한 특징 맵에서 클래스 관련 특징을 탐색하고 풀링하는 효과적인 방법을 제공한다. 이는 후속 이진 분류 작업에 활용된다. 기존 연구들과 비교하여, 새로운 프레임워크는 표준 Transformer와 시각 백본만을 사용하는 간단한 구조를 가지며, 동시에 매우 효과적이다. 다중 레이블 분류 데이터셋 5개—MS-COCO, PASCAL VOC, NUS-WIDE, Visual Genome 등—에서 기존 모든 연구를 일관되게 상회하는 성능을 보였다. 특히 MS-COCO에서 mAP 91.3%를 달성하여 새로운 기준을 설정하였다. 이 연구의 컴팩트한 구조, 간단한 구현 방식, 그리고 뛰어난 성능이 다중 레이블 분류 작업과 미래 연구에 강력한 벤치마크가 되기를 기대한다. 코드는 곧 https://github.com/SlongLiu/query2labels 에 공개될 예정이다.

Query2Label: 다중 레이블 분류를 위한 간단한 Transformer 방식 | 최신 연구 논문 | HyperAI초신경