2달 전
요리 문맥에서의 크로스-모달 검색: 의미론적 텍스트-이미지 임베딩 학습
Micael Carvalho; Rémi Cadène; David Picard; Laure Soulier; Nicolas Thome; Matthieu Cord

초록
요리 활동을 지원하는 강력한 도구를 설계하는 것이 대량의 데이터와 최근 머신 러닝 기술의 발전으로 인해 급속히 인기를 얻고 있습니다. 본 논문에서는 요리 사진과 레시피 같은 시각적 및 텍스트 데이터를 공유된 표현 공간에서 일치시키는 크로스-모달 검색 모델을 제안합니다. 우리는 대규모 문제를 해결할 수 있는 효과적인 학습 방식을 설명하고, 거의 100만 개의 사진-레시피 쌍을 포함하는 Recipe1M 데이터셋에서 이를 검증합니다. 또한, 이전 최신 연구 모델들과 비교하여 우리의 접근법이 효과적임을 보여주며, 계산 요리 사용 사례에 대한 정성적인 결과를 제시합니다.