
초록
다중 라벨 이미지 인식은 단일 라벨 이미지 분류에 비해 실용적이면서도 도전적인 과제입니다. 그러나, 이전 연구들은 대량의 객체 제안이나 복잡한 주의 영역 생성 모듈 때문에 최적화되지 않을 수 있습니다. 본 논문에서는 전반적인 이미지에서부터 지역까지 인간이 객체를 인식하는 방식과 유사하게 다중 카테고리 객체를 인식하기 위한 간단하면서도 효율적인 두 스트림 프레임워크를 제안합니다. 전반적 스트림과 지역 스트림 사이의 격차를 줄이기 위해, 우리는 주의 영역의 수를 가능한 한 적게 유지하면서 이러한 영역들의 다양성을 가능한 한 높이는 것을 목표로 하는 다중 클래스 주의 영역 모듈을 제안합니다. 우리의 방법은 저렴한 계산 비용과 파라미터가 없는 지역 위치 결정 모듈을 사용하여 다중 클래스 객체를 효율적이고 효과적으로 인식할 수 있습니다. 세 가지 벤치마크에서 다중 라벨 이미지 분류에 대해 단일 모델만으로 라벨 의존성 없이 이미지 의미만을 사용하여 새로운 최신 결과를 달성했습니다. 또한, 글로벌 풀링 전략, 입력 크기 및 네트워크 아키텍처와 같은 다양한 요인 하에서 제안된 방법의 유효성이 광범위하게 입증되었습니다. 코드는 \url{https://github.com/gaobb/MCAR}에서 제공됩니다.