2달 전
GLAMI-1M: 다국어 이미지-텍스트 패션 데이터셋
Vaclav Kosar; Antonín Hoskovec; Milan Šulc; Radek Bartyzal

초록
우리는 GLAMI-1M을 소개합니다: 가장 큰 다국어 이미지-텍스트 분류 데이터셋 및 벤치마크입니다. 이 데이터셋은 13개 언어 중 하나로 작성된 상품 설명이 포함된 패션 제품의 이미지를 포함하고 있습니다. 191개 클래스로의 분류는 고품질 주석을 제공하며, 테스트 세트의 모든 10만 장의 이미지와 100만 장의 학습 세트 중 75%가 인간에 의해 라벨링되었습니다. 본 논문에서는 이미지-텍스트 분류를 위한 기준선을 제시하여, 이 데이터셋이 세부적인 분류 문제를 제시함을 보여줍니다: 시각적 및 텍스트 특성을 모두 사용하는 최고 성능의 EmbraceNet 모델은 69.7%의 정확도를 달성했습니다. 수정된 Imagen 모델을 사용한 실험은 이 데이터셋이 텍스트 조건부 이미지 생성에도 적합함을 보여줍니다. 데이터셋, 소스 코드 및 모델 체크포인트는 https://github.com/glami/glami-1m에서 공개되었습니다.