17일 전

ELoPE: 효율적인 로컬라이제이션, 풀링 및 임베딩을 통한 세부적인 시각 분류

Harald Hanselmann, Hermann Ney
ELoPE: 효율적인 로컬라이제이션, 풀링 및 임베딩을 통한 세부적인 시각 분류
초록

미세한 시각 분류(Fine-grained Visual Classification, FGVC) 작업은 새 종류나 자동차 모델처럼 클래스 간 차이가 매우 미세한 분류 문제를 다룹니다. 최신 기술들은 일반적으로 표준 합성곱 신경망(Convolutional Neural Network, CNN)에 복잡한 주의 메커니즘 또는 (부분-) 위치 추정 방법을 통합함으로써 이 문제를 해결합니다. 본 연구에서도 ResNet과 같은 기본 CNN의 성능을 향상시키는 것을 목표로 하며, FGVC에 특화된 세 가지 효율적이고 경량화된 구성 요소를 도입합니다. 이를 위해 전역 k-최대 풀링(global k-max pooling), 클래스 평균을 최적화함으로써 학습되는 구분력 있는 임베딩 계층(discriminative embedding layer), 그리고 학습 시 클래스 레이블만을 요구하는 효율적인 경계 상자 추정기(bounding box estimator)를 활용합니다. 결과적으로 제안된 모델은 스탠포드 카즈(Stanford Cars) 및 FGVC-Aircraft 데이터셋에서 새로운 최고 성능의 인식 정확도를 달성하였습니다.

ELoPE: 효율적인 로컬라이제이션, 풀링 및 임베딩을 통한 세부적인 시각 분류 | 최신 연구 논문 | HyperAI초신경