17일 전

FooDI-ML: 음식, 음료 및 식료품 이미지와 설명을 포함한 대규모 다국어 데이터셋

David Amat Olóndriz, Ponç Palau Puigdevall, Adrià Salvador Palau

초록

이 논문에서는 FooDI-ML 데이터셋을 소개한다. 이 데이터셋은 글로보(Glovo) 애플리케이션에서 수집한 150만 개 이상의 고유 이미지와 950만 개 이상의 매장명, 제품명, 제품 설명 및 컬렉션 섹션을 포함하고 있다. 공개된 데이터는 유럽, 중동, 아프리카, 라틴 아메리카의 37개 국가에서 제공하는 음식, 음료, 식료품 제품을 대상으로 한다. 데이터셋은 총 33개의 언어를 수용하며, 특히 동유럽 및 서아시아 국가들(예: 우크라이나어, 카자흐어)의 언어 샘플 87만 개를 포함하고 있어, 기존 공개된 시각어의적(비주얼-언어) 데이터셋에서 오랫동안 부족한 대상이었던 언어들을 보완한다. 또한 스페인어, 영어와 같은 널리 사용되는 언어도 포함하고 있다. 향후 연구를 지원하기 위해, 텍스트-이미지 검색과 조건부 이미지 생성이라는 두 가지 작업에 대한 벤치마크를 함께 제공한다.