2달 전
MultiGrain: 클래스와 인스턴스를 위한 통합 이미지 임베딩
Maxim Berman; Hervé Jégou; Andrea Vedaldi; Iasonas Kokkinos; Matthijs Douze

초록
MultiGrain은 이미지 분류와 특정 객체 검색에 적합한 컴팩트 벡터 표현을 생성하는 네트워크 아키텍처입니다. 이는 표준 분류 트렁크를 기반으로 하며, 네트워크 상단에서 코스 및 파인 그레인 정보를 포함하는 임베딩을 생성하여 객체 클래스, 특정 객체 또는 왜곡된 복사본을 기반으로 이미지를 인식할 수 있습니다. 우리의 공동 학습 방법은 간단합니다: 우리는 분류를 위한 크로스 엔트로피 손실과 두 이미지가 데이터 증강까지 동일한지를 결정하는 순위 손실을 최소화하며, 추가 라벨이 필요하지 않습니다. MultiGrain의 핵심 구성 요소는 고해상도 이미지를 활용하면서 낮은 해상도로 훈련된 네트워크에서 이점을 얻는 풀링 레이어입니다.학습된 임베딩을 선형 분류기에 입력하면 최고 수준의 분류 정확도를 제공합니다. 예를 들어, Imagenet에서 학습된 ResNet-50을 사용하여 79.4%의 Top-1 정확도를 달성하였으며, 이는 AutoAugment 방법보다 절대적으로 +1.8% 개선된 결과입니다. 중간 해상도에서 이미지 검색 성능을 비교할 때, 같은 임베딩은 코사인 유사성과 비교하여 최신 연구 수준의 성능을 보여줍니다.