요리 레시피와 음식 이미지에 대한 적대적 네트워크를 이용한 크로스 모달 임베딩 학습

식품 컴퓨팅은 인간의 일상생활에서 점점 더 중요한 역할을 하고 있으며, 지능형 식품 소비와 건강한 생활 방식으로의 인类行为引导方面展现出了巨大的应用潜力。在食品计算的范畴内,一个重要的任务是检索,这在与健康相关的应用程序中尤为有用,我们对此类应用程序感兴趣的是检索有关食物的重要信息(例如,成分、营养等)。本文中,我们研究了一个开放的研究课题——烹饪食谱与食物图像之间的跨模态检索,并提出了一种新颖的框架对抗性跨模态嵌入(Adversarial Cross-Modal Embedding, ACME),以解决食品领域的跨模态检索问题。具体而言,我们的目标是在两种模态之间学习一个共同的嵌入特征空间,在这个过程中我们的方法包含了几个创新点:(i) 使用一种新的三元组损失方案及有效的采样策略进行学习,(ii) 通过对抗性学习策略实现模态对齐,以及 (iii) 强制执行跨模态翻译一致性,使得一种模态的嵌入能够恢复另一种模态对应实例的一些重要信息。ACME在基准数据集Recipe1M上实现了最先进的性能,验证了所提出技术的有效性。为了更好地符合韩语表达习惯和科技写作的标准,以下是进一步优化后的版本:식품 컴퓨팅은 인간의 일상생활에서 점차 중요한 역할을 차지하고 있으며, 지능형 식품 소비와 건강한 생활 습관 유도에 있어 큰 활용 가능성을 보여주고 있습니다. 식품 컴퓨팅의 주요 과제 중 하나는 검색으로, 이는 특히 건강 관련 애플리케이션에서 매우 유용합니다. 이러한 애플리케이션에서는 음식의 성분, 영양 등과 같은 중요 정보를 검색하는 것이 목표입니다. 본 논문에서는 요리 레시피와 음식 이미지 간의 크로스모달 검색(Cross-Modal Retrieval)이라는 개방형 연구 과제를 탐구하고, 이를 해결하기 위한 새로운 프레임워크인 대립적 크로스모달 임베딩(Adversarial Cross-Modal Embedding, ACME)을 제안합니다. 구체적으로, 두 모달 사이에서 공통 임베딩 특성 공간을 학습하는 것이 목표이며, 이 과정에서 다음과 같은 몇 가지 혁신적인 아이디어가 포함됩니다: (i) 새로운 트리플렛 손실 방식과 효과적인 샘플링 전략을 사용하여 학습, (ii) 대립적 학습 전략을 통해 모달 정렬 강제화, (iii) 한 모달의 임베딩이 다른 모달의 해당 인스턴스에 대한 일부 중요한 정보를 복원할 수 있도록 크로스모달 번역 일관성 강제화. ACME는 벤치마크 데이터셋 Recipe1M에서 최고 수준의 성능을 달성하였으며, 제안된 기술의 효율성을 입증하였습니다.