2달 전
시퀀스-투-시퀀스 모델에서 정렬된 시각적-텍스트 특성을 활용한 오픈 보카비어리 멀티레이블 분류와 듀얼 모달 디코더
Shichao Xu; Yikang Li; Jenhao Hsiao; Chiuman Ho; Zhu Qi

초록
컴퓨터 비전에서 다중 라벨 인식은 많은 실제 응용 분야를 가진 중요한 작업이지만, 이전에 본 적 없는 라벨을 분류하는 것은 여전히 큰 도전과제입니다. 본 논문에서는 시각적 특성과 텍스트 특성 간의 정렬을 포함한 듀얼 모달 디코더(DM-디코더)를 갖춘 새로운 알고리즘인 Aligned Dual moDality ClaSsifier (ADDS)를 제안합니다. 이를 통해 오픈 보카브러리 다중 라벨 분류 작업의 성능을 향상시킵니다. 또한 고해상도 입력에 대한 성능을 개선하기 위해 피라미드 전방향 전송(Pyrmaid-Forwarding)이라는 단순하면서도 효과적인 방법을 설계하였습니다. 더욱이, 선택적 언어 감독(Selective Language Supervision)이 적용되어 모델의 성능을 더욱 강화하였습니다. NUS-WIDE, ImageNet-1k, ImageNet-21k, MS-COCO 등 여러 표준 벤치마크에서 수행된 광범위한 실험 결과, 제안된 접근 방식이 기존 방법보다 크게 우수하며, 오픈 보카브러리 다중 라벨 분류, 일반적인 다중 라벨 분류 및 싱글-다중 라벨 분류(Single-to-Multi Label Classification)라는 극단적인 경우에서도 최고 수준의 성능을 제공함을 입증하였습니다. 이 경우는 싱글 라벨 데이터셋(ImageNet-1k, ImageNet-21k)에서 학습된 모델이 다중 라벨 데이터셋(MS-COCO와 NUS-WIDE)에서 테스트되는 상황을 의미합니다.