다중모달 정규화를 갖춘 Transformer 디코더를 이용한 크로스모달 음식 검색

최근 몇 년간 크로스모달 이미지-레시피 검색에 대한 관심이 크게 증가하고 있다. 기존 연구 대부분은 단일 모달 인코더를 활용하여 크로스모달 임베딩을 개선함으로써 대규모 데이터베이스에서 효율적인 검색을 가능하게 하는 데 집중하며, 모달 간의 상호작용을 다루는 크로스 어텐션은 계산 비용이 높다는 이유로 소외되어 왔다. 본 연구에서는 테스트 시 단일 모달 인코더만을 사용하여 효율적인 검색을 가능하게 하면서도, 새로운 정규화 방식을 통해 모달 간의 상호작용을 효과적으로 활용하는 새로운 검색 프레임워크인 T-Food (Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval)를 제안한다. 또한, 레시피 내 항목 간의 내부 종속성(인트라-의존성)을 전용 레시피 인코더를 통해 모델링하고, 작업의 난이도에 따라 동적으로 조정되는 새로운 종류의 트리플릿 손실 함수를 제안한다. 마지막으로, 최근의 비전-언어 사전학습(VLP, Vision and Language Pretraining) 모델인 CLIP을 이미지 인코더로 활용하여 성능을 극대화하였다. 제안한 방법은 Recipe1M 데이터셋에서 기존 방법들을 크게 능가하며, 각각 1k 및 10k 테스트 세트에서 R@1 지표에서 8.1% (72.6 R@1) 및 10.9% (44.6 R@1)의 절대적 개선을 달성하였다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/mshukor/TFood