15일 전
계층적 트랜스포머와 자기지도 학습을 활용한 다중모달 레시피 검색의 재구성
Amaia Salvador, Erhan Gundogdu, Loris Bazzani, Michael Donoser

초록
다중모달 레시피 검색은 사람들의 삶에서 음식의 중요성과 함께, 기계 학습 모델을 훈련하기 위한 방대한 디지털 요리 레시피 및 음식 이미지의 가용성으로 인해 최근 크게 주목받고 있다. 본 연구에서는 기존의 다중모달 레시피 검색 접근법을 재검토하고, 텍스트와 이미지에 대해 잘 알려지고 성능이 우수한 인코더를 기반으로 한 단순화된 엔드투엔드 모델을 제안한다. 우리는 요리의 개별 구성 요소(제목, 재료, 조리법)를 주의 깊게 인코딩하는 계층적 레시피 트랜스포머를 도입한다. 또한, 개별 레시피 구성 요소 쌍 위에서 계산되는 자기지도 학습 손실 함수를 제안하며, 이는 레시피 내부의 의미적 관계를 활용할 수 있고, 이미지-레시피 쌍과 레시피 단독 샘플 모두를 사용한 훈련을 가능하게 한다. 설계 선택 사항을 검증하기 위해 철저한 분석 및 아블레이션 연구를 수행하였다. 그 결과, 제안하는 방법은 Recipe1M 데이터셋에서 다중모달 레시피 검색 작업에서 최신 기준(SOTA) 성능을 달성하였다. 코드와 모델은 공개하여 누구나 사용할 수 있도록 제공한다.