Command Palette
Search for a command to run...
{Ignazio Gallo Nicola Landro Moreno Caraffini Alessandro Calefati Shah Nawaz}

초록
세부 이미지 분류는 데이터셋 내 계층적인 거시적에서 미시적 분류 구조가 존재함으로써 도전적인 과제이다. 일반적으로 세부 이미지 데이터셋에서 다양한 객체를 구분하기 위해 부분 정보를 활용하지만, 모든 부분이 유용하거나 필수적인 것은 아니다. 최근 들어 자연어 설명을 활용하여 객체의 구분력 있는 부분에 대한 정보를 얻는 방법이 등장하였다. 본 논문은 자연어 설명을 활용하여 다층 구조를 가진 이중 분기 네트워크를 사용하여 자연어 설명과 이미지의 공동 표현을 학습하는 전략을 제안한다. 이를 통해 세부 이미지 분류 작업의 정확도를 크게 향상시킬 수 있다. 광범위한 실험 결과에 따르면, 제안하는 방법은 세부 이미지 분류 과제에서 뚜렷한 정확도 향상을 달성하였으며, 특히 CUB-200-2011 데이터셋에서 새로운 최고 성능(SOTA)을 기록하였다.
벤치마크
| 벤치마크 | 방법론 | 지표 |
|---|---|---|
| fine-grained-image-classification-on-cub-200-1 | Nts-Net | Accuracy: 87.5 |
| multimodal-deep-learning-on-cub-200-2011 | Two Branch Network (Text - Bert + Image - Nts-Net) | Accuracy: 96.81 |
| multimodal-text-and-image-classification-on | Two Branch Network (Text - Bert + Image - Nts-Net) | Accuracy: 96.81 |