17일 전

생성적 적대 신경망과 얼굴 랜드마크 탐지를 활용한 세분화된 이미지 분류 연구

Mahdi Darvish, Mahsa Pouramini, Hamid Bahador
생성적 적대 신경망과 얼굴 랜드마크 탐지를 활용한 세분화된 이미지 분류 연구
초록

미세 분류(fine-grained classification)는 카테고리 간의 복잡하고 국소적인 차이를 구분해야 하므로 여전히 도전적인 과제로 남아 있다. 이미지 내 객체의 자세, 크기, 위치에 대한 다양성은 이 문제를 더욱 복잡하게 만든다. 최근의 비전 트랜스포머(Vision Transformer) 모델들은 높은 성능을 달성하고 있으나, 광범위한 입력 데이터량을 필요로 한다. 이러한 문제를 해결하기 위해, 우리는 GAN 기반의 데이터 증강 기법을 활용하여 추가적인 데이터 샘플을 생성하였다. 본 실험에서는 Oxford-IIIT Pets 데이터셋을 선택하였으며, 이는 스케일, 자세, 조명 조건의 변화가 큰 고양이와 개의 총 37종의 품종을 포함하고 있어 분류 과제의 난이도를 더욱 높인다. 더불어, 최근의 생성적 적대 신경망(GAN) 모델인 StyleGAN2-ADA의 성능을 향상시켜 과적합(overfitting)을 방지하면서 더 현실적인 이미지를 생성하도록 개선하였다. 이를 위해 MobileNetV2의 커스터마이징 버전을 훈련시켜 동물의 얼굴 특징점(facial landmarks)을 예측한 후, 해당 특징점을 기반으로 이미지를 자르는 방식을 적용하였다. 마지막으로, 생성된 합성 이미지를 원본 데이터셋과 결합하여 제안한 방법이 기존의 GAN 기반 증강 기법 및 증강 없이 다양한 훈련 데이터 서브셋을 사용한 경우와 비교 평가하였다. 또한, 최신 비전 트랜스포머(ViT) 모델을 기반으로 미세 분류 정확도를 측정함으로써 본 연구의 유효성을 검증하였다.