2달 전

SIM-Trans: 세부 시각 범주화를 위한 구조 정보 모델링 트랜스포머

Sun, Hongbo ; He, Xiangteng ; Peng, Yuxin
SIM-Trans: 세부 시각 범주화를 위한 구조 정보 모델링 트랜스포머
초록

세부 시각 분류(Fine-grained Visual Categorization, FGVC)는 유사한 하위 범주에서 객체를 인식하는 것을 목표로 하며, 이는 인간의 정확한 자동 인식 요구에 있어 도전적이고 실용적인 문제입니다. 대부분의 FGVC 접근 방식은 차별화된 영역을 발굴하기 위한 주의 메커니즘 연구에 초점을 맞추고 있지만, 객체 구조 정보와 그들의 상호 의존성을 간과하고 있습니다. 이러한 요소들은 모델의 차별화된 정보 위치 파악 및 이해 능력에 필수적입니다. 위와 같은 제약 사항을 해결하기 위해, 우리는 객체 구조 정보를 트랜스포머에 통합하여 외관 정보와 구조 정보를 모두 포함하는 차별화된 표현 학습을 강화하는 구조 정보 모델링 트랜스포머(Structure Information Modeling Transformer, SIM-Trans)를 제안합니다.구체적으로, 이미지를 패치 토큰의 시퀀스로 인코딩하고 두 개의 잘 설계된 모듈을 갖춘 강력한 비전 트랜스포머 프레임워크를 구축합니다: (i) 구조 정보 학습(Structure Information Learning, SIL) 모듈은 트랜스포머의 자기 주의 가중치(self-attention weights)를 활용하여 객체 범위 내에서 중요한 패치들의 공간적 맥락 관계를 발굴하며, 이를 통해 구조 정보가 모델에 주입됩니다; (ii) 다중 수준 특징 부스트(Multi-level Feature Boosting, MFB) 모듈은 클래스 간 대비 학습(contrastive learning)과 다중 수준 특징들의 보완성을 활용하여 정확한 인식을 위한 특징 견고성을 강화하기 위해 도입되었습니다.제안된 두 개의 모듈은 경량화되어 있으며, 어떤 트랜스포머 네트워크에도 쉽게 플러그인할 수 있고 엔드투엔드(end-to-end)로 훈련될 수 있습니다. 이는 비전 트랜스포머 자체에서 제공되는 주의 가중치(attention weights)에만 의존합니다. 광범위한 실험과 분석 결과, 제안된 SIM-Trans가 세부 시각 분류 벤치마크에서 최신 기술(state-of-the-art) 성능을 달성함을 입증하였습니다. 코드는 https://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022 에서 확인할 수 있습니다.

SIM-Trans: 세부 시각 범주화를 위한 구조 정보 모델링 트랜스포머 | 최신 연구 논문 | HyperAI초신경