초록
다중 레이블 이미지 인식은 하나의 이미지에서 여러 객체를 동시에 인식하는 것을 목표로 한다. 최근 이러한 문제를 해결하기 위한 연구들은 레이블 동시 발생의 종속 관계를 학습함으로써 고수준의 의미 표현을 강화하는 데 초점을 맞추고 있다. 그러나 이러한 방법들은 내재적인 시각적 구조 간의 중요한 관계를 간과하고, 맥락적 관계를 이해하는 데 어려움을 겪는다. 시각 모달리티와 언어 모달리티 간의 상호작용뿐만 아니라 시각적 맥락의 전반적인 범위를 구축하기 위해, 내·외 모달리티 간의 삼중 관계 학습을 도입한 다모달 다중 레이블 인식 트랜스포머(Multi-Modal Multi-label recognition TRansformers, M3TR)를 제안한다. 내 모달리티 관계를 위해, CNN과 트랜스포머의 통찰적인 결합을 통해 의미적 크로스 어텐션을 학습함으로써 시각적 구조를 고수준 특징에 통합한다. 시각 모달리티와 언어 모달리티 간의 상호작용을 구축하기 위해, 클래스별 언어 정보를 시각 구조 학습에 통합하는 언어 크로스 어텐션을 제안하며, 최종적으로 고수준 의미 표현을 강화하기 위한 언어 지도 강화 모듈을 제시한다. 실험 결과, 삼중 관계의 협업 학습을 통해 제안하는 M3TR가 두 개의 공개 다중 레이블 인식 벤치마크에서 새로운 최고 성능(SOTA)을 달성함을 입증하였다.