15일 전

다중 모달 음식 검색: 의미 일관성과 주의 메커니즘을 갖춘 음식 이미지와 조리법의 공동 임베딩 학습

Hao Wang, Doyen Sahoo, Chenghao Liu, Ke Shu, Palakorn Achananuparp, Ee-peng Lim, Steven C. H. Hoi
다중 모달 음식 검색: 의미 일관성과 주의 메커니즘을 갖춘 음식 이미지와 조리법의 공동 임베딩 학습
초록

음식 검색은 음식과 관련된 정보 분석을 수행하는 데 중요한 작업으로, 사용자가 쿼리한 음식 항목에 대한 관련 정보(예: 재료, 조리 방법 등)를 검색하는 것을 목적으로 한다. 본 논문에서는 음식 이미지와 조리 레시피 간의 다중모달 검색을 탐구한다. 그 목적은 이미지와 레시피를 동일한 특징 공간 내에서 임베딩(embedding)으로 표현함으로써, 서로 대응하는 이미지-레시피 임베딩 간의 거리가 가까워지도록 하는 것이다. 이 문제를 해결하는 데 있어 두 가지 주요 과제가 있다. 첫째, 다중모달 음식 데이터 간에 큰 내부 변동성(내분산)과 작은 외부 변동성(외분산)이 존재한다는 점이며, 둘째, 구분력 있는 레시피 표현을 얻기 어려운 점이다. 이러한 문제를 해결하기 위해, 우리는 출력의 의미적 확률을 정렬함으로써 두 모달의 임베딩을 정규화하는 의미 일관성과 주의 메커니즘을 기반으로 한 네트워크(Semantic-Consistent and Attention-based Networks, SCAN)를 제안한다. 또한, 레시피 임베딩의 품질을 향상시키기 위해 자체 주의(self-attention) 메커니즘을 활용한다. 제안된 방법의 성능은 대규모 Recipe1M 데이터셋을 기반으로 평가되었으며, 기존의 여러 최첨단 다중모달 검색 전략에 비해 유의미한 성능 향상을 보였다.

다중 모달 음식 검색: 의미 일관성과 주의 메커니즘을 갖춘 음식 이미지와 조리법의 공동 임베딩 학습 | 최신 연구 논문 | HyperAI초신경