17일 전

세부적인 음식 인식을 위한 다중 부분 클래스 학습

{Petia Radeva, Marc Bolaños, Bhalaji Nagarajan, Javier Ródenas}
초록

음식 이미지 인식은 음식 클래스의 수가 매우 많아 세부적인 분류가 필요한 복잡한 컴퓨터 비전 과제이다. 세부 분류( fine-grained ) 인식 과제는 유사한 클래스를 구분하기 위해 미세한 구별 특징을 학습하는 데 중점을 둔다. 본 논문에서는 다중 서브셋 학습(Multi-Subsets learning) 기반으로 구분이 어려운 클래스의 분류 성능을 향상시키기 위한 새로운 방법을 제안한다. 사전 훈련된 네트워크를 이용하여 군집화 기법을 활용해 클래스들을 여러 개의 서브셋으로 구성한 후, 이 서브셋들을 다중 헤드(multi-head) 모델 구조에 통합한다. 이 구조는 세 가지 구분 가능한 구성 요소로 이루어져 있다. 첫째, 데이터의 일반화된 표현을 학습하기 위해 여러 개의 공유 블록(shared blocks)를 사용한다. 둘째, 구분이 특히 어려운 특정 서브셋에 집중하는 다수의 전문화된 블록(specialized blocks)을 활용한다. 셋째, 신경망 출력을 결합하여 엔드 투 엔드(end-to-end) 방식으로 각 서브셋의 가중치를 조절하기 위해 완전 연결층(fully connected layer)을 사용한다. 제안한 방법은 세 가지 공개된 음식 인식 데이터셋에서 최근 최신의 비전 트랜스포머( vision transformers) 모델을 기반으로 검증하였다. 실험 결과, 제안한 방법은 혼동되기 쉬운 클래스들을 더 효과적으로 학습하는 데 성공하였으며, 세 가지 데이터셋에서 기존 최고 성능(SOTA)을 모두 상회하는 성능을 달성하였다.