2달 전

유니콤: 이미지 검색을 위한 보편적이고 효율적인 표현 학습

Xiang An; Jiankang Deng; Kaicheng Yang; Jaiwei Li; Ziyong Feng; Jia Guo; Jing Yang; Tongliang Liu
유니콤: 이미지 검색을 위한 보편적이고 효율적인 표현 학습
초록

현대 이미지 검색 방법은 일반적으로 미세 조정(fine-tuning)된 사전 훈련(pre-trained) 인코더를 사용하여 이미지 수준의 디스크립터(descriptor)를 추출합니다. 그러나 가장 널리 사용되는 모델들은 제한된 클래스로 구성된 ImageNet-1K에서 사전 훈련됩니다. 따라서 이러한 사전 훈련된 특성 표현(feature representation)은 다양한 오픈 월드(open-world) 클래스에 대해 충분히 보편적이지 못해 일반화(generalize)가 잘 이루어지지 않습니다. 본 논문에서는 CLIP 모델을 통해 추출된 문장적(textual) 및 시각적(visual) 특성을 기반으로 대규모 LAION400M 데이터셋을 1백만 개의 가상 클래스(pseudo classes)로 클러스터링(cluster)합니다. 라벨 세분화(label granularity)의 혼동으로 인해 자동 클러스터링된 데이터셋은 불가피하게 중간 클래스 간의 심각한 충돌(inter-class conflict)을 포함합니다. 이러한 충돌을 완화하기 위해, 우리는 부분적으로 중간 클래스 프로토타입(prototypes)을 무작위로 선택하여 마진 기반(margin-based) 소프트맥스(softmax) 손실(loss)을 구성합니다. 또한, 임베딩(embeddings)과 클래스별 프로토타입(class-wise prototypes) 사이의 유사성(similarities)을 계산할 때 특성 차원(feature dimensions)의 일부를 무작위로 선택하여 저차원(low-dimensional) 특성 표현(feature representation)을 더욱 강화합니다. 이중 무작위 부분 선택(dual random partial selections)은 프로토타입 행렬(prototype matrix)의 클래스 차원(class dimension)과 특성 차원(feature dimension)에 해당하며, 이는 분류 충돌(classification conflict)-내성을 높이고 특성 임베딩(feature embedding)-압축성을 증가시킵니다. 우리의 방법은 여러 벤치마크(benchmarks)에서 최신 연구(state-of-the-art)인 비지도학습(unsupervised) 및 지도학습(supervised) 이미지 검색 접근법보다 크게 우수한 성능을 보입니다. 코드와 사전 훈련된 모델들은 미래 연구를 촉진하기 위해 공개되었습니다: https://github.com/deepglint/unicom.

유니콤: 이미지 검색을 위한 보편적이고 효율적인 표현 학습 | 최신 연구 논문 | HyperAI초신경