17일 전

SIM-OFE: 세부 시각 분류를 위한 구조 정보 마이닝 및 객체 인지 특징 강화

{Yuxin Peng, Jinglin Xu, Xiangteng He, Hongbo Sun}
초록

미세한 시각적 분류(Fine-grained visual categorization, FGVC)는 거시적 범주에 속하는 여러 하위 범주 간의 시각적 객체를 구분하는 것을 목표로 한다. 다양한 하위 범주 간의 미묘한 클래스 간 차이로 인해 FGVC 작업은 더욱 도전적인 과제가 된다. 기존의 방법들은 주로 두드러진 시각적 패턴을 학습하는 데 집중하면서 객체의 내부 구조를 어떻게 포착할지에 대한 고려를 소홀히 하여, 객체 내에서 완전한 구분 가능한 영역을 확보하는 데 어려움을 겪고, 이로 인해 FGVC 성능이 제한된다. 위 문제를 해결하기 위해, 본 연구는 시각적 객체의 내부 구조 구성과 외관 특성을 탐색하는 구조 정보 탐사 및 객체 인지 특징 강화(SIM-OFE) 방법을 제안한다. 구체적으로, 먼저 전역 범위와 국소 범위의 중요도 분석을 기반으로 시각적 객체를 정확히 위치시키는 간단하면서도 효과적인 하이브리드 인지 주의 모듈을 제안한다. 다음으로, 객체 내 핵심 영역의 분포와 맥락적 관계를 모델링하는 구조 정보 탐사 모듈을 제안하여 객체 전체 및 구분 가능한 영역을 강조함으로써 미묘한 차이를 구분할 수 있도록 한다. 마지막으로, 전역 범위와 국소 범위의 구분 가능한 특징을 주의 기반 결합 방식으로 통합하는 객체 인지 특징 강화 모듈을 제안하여 미세한 시각 인식을 위한 강력한 시각 표현을 구현한다. 세 가지 FGVC 기준 데이터셋에서 실시한 광범위한 실험을 통해 제안하는 SIM-OFE 방법이 최신 기술 수준(SOTA)의 성능을 달성함을 입증하였다.

SIM-OFE: 세부 시각 분류를 위한 구조 정보 마이닝 및 객체 인지 특징 강화 | 최신 연구 논문 | HyperAI초신경