15일 전
다중모달 검색 및 합성(X-MRS): 공유 표현 학습에서 모달리티 간 격차 해소하기
Ricardo Guerrero, Hai Xuan Pham, Vladimir Pavlovic

초록
계산 기반 음식 분석(CFA)은 특정 음식에 대한 다중 모달 정보, 예를 들어 이미지, 조리법 텍스트 등을 자연스럽게 요구한다. CFA를 가능하게 하는 핵심은 다중 모달 공유 표현 학습(multi-modal shared representation learning)이다. 이는 데이터의 여러 관점(텍스트 및 이미지)을 통합된 표현으로 학습하는 것을 목표로 한다. 본 연구에서는 음식 데이터 내에 존재하는 풍부한 의미적 정보를 유지하면서 음식 도메인 기반의 다중 모달 공유 표현 학습을 위한 새로운 방법을 제안한다. 제안하는 방법은 효과적인 트랜스포머 기반의 다국어 조리법 인코더와 전통적인 이미지 임베딩 아키텍처를 결합한다. 특히, 불완전한 다국어 번역을 활용하여 모델의 정규화를 효과적으로 수행하면서 동시에 다양한 언어와 문자 체계에 걸쳐 기능성을 확보한다. 공개된 Recipe1M 데이터셋을 대상으로 한 실험 분석 결과, 제안한 방법을 통해 학습된 표현이 검색 작업에서 기존 최고 성능(SOTA)을 크게 능가함을 입증하였다. 또한, 조리법 임베딩을 조건으로 하는 생성형 음식 이미지 합성 모델을 통해 학습된 표현의 표현 능력을 추가적으로 검증하였다. 합성된 이미지는 쌍을 이루는 샘플의 시각적 특징을 효과적으로 재현할 수 있으며, 이는 학습된 표현이 텍스트 형태의 조리법과 시각적 콘텐츠 간의 공동 의미를 잘 포착하고 있음을 시사하며, 모달 간 격차를 좁히고 있음을 나타낸다.