17일 전

세부 시각 인식을 위한 글로벌 공분산 풀링의 고유값에 관한 연구

Yue Song, Nicu Sebe, Wei Wang
세부 시각 인식을 위한 글로벌 공분산 풀링의 고유값에 관한 연구
초록

세부적인 시각 분류(Fine-Grained Visual Categorization, FGVC)는 클래스 간 미세한 차이를 효과적으로 포착하기 어려워 도전적인 과제이다. 주목할 만한 연구 방향 중 하나는 이차 통계량을 활용하여 강력한 표현을 학습하는 전역 공분산 풀링(Global Covariance Pooling, GCP) 레이어를 사용하는 것이다. 이는 클래스 간 차이를 효과적으로 모델링할 수 있다. 우리 이전의 회의 논문에서, GCP 공분산 행렬의 작은 고유값을 자르는 것은 더 부드러운 기울기를 얻고 대규모 벤치마크에서 성능을 향상시킬 수 있음을 보여주었다. 그러나 세부적인 시각 분류 데이터셋에서는 작은 고유값을 자르는 것이 모델의 수렴을 방해한다. 이 관찰은 작은 고유값이 단순히 노이즈나 중요하지 않은 정보에 해당한다는 일반적인 가정과 모순된다. 따라서 이러한 고유값을 무시하더라도 성능에 큰 영향을 주지 않을 것이라는 전제와도 맞지 않는다. 이러한 특이한 행동을 진단하기 위해, 우리는 두 가지 설명 가능(Attribution) 방법을 제안한다. 시각화 결과는 보이지 않는 듯한 작은 고유값이 분류 특성 정보를 추출하는 데 핵심적인 역할을 한다는 점을 입증한다. 이러한 관찰을 바탕으로, 작은 고유값의 중요성을 강조하기 위한 네트워크 브랜치를 제안한다. 추가적인 파라미터 없이도 이 브랜치는 작은 고유값을 단순히 증폭함으로써, 세 가지 세부적인 시각 분류 벤치마크에서 GCP 기반 방법 중 최고 수준의 성능을 달성한다. 또한 더 큰 규모의 데이터셋에서도 다른 FGVC 접근법과 경쟁 가능한 성능을 보인다. 코드는 \href{https://github.com/KingJamesSong/DifferentiableSVD}{https://github.com/KingJamesSong/DifferentiableSVD} 에서 공개되어 있다.