제로샷 크로스모달 검색
Zero-Shot Cross-Modal Retrieval은 서로 다른 모달리티(예: 텍스트와 이미지) 간에 관련 항목을 찾는 작업으로, 학습 예제 없이 수행됩니다. 이 작업의 주요 과제는 이질성 간극(heterogeneity gap)입니다. 이질성 간극은 모달리티 간에 데이터 유형이 본질적으로 다르다는 점을 의미하며, 이로 인해 직접적인 유사도 측정이 어려워집니다. 이러한 문제를 해결하기 위해 기존 방법들은 공유 잠재 표현 공간(shared latent representation space)을 학습하여, 서로 다른 모달리티의 데이터를 동일한 표현 공간으로 투영합니다.这样一来,就可以在跨模态项目之间直接进行相似度测量。이 기술은 전자상거래 등 분야에서 큰 응용 가치를 가지고 있습니다. (Note: The sentence "这样一来,就可以在跨模态项目之间直接进行相似度测量" was mistakenly written in Chinese. Here is the corrected version in Korean: "이렇게 하면, 서로 다른 모달리티의 항목 간에 직접 유사도를 측정할 수 있습니다.") Zero-Shot Cross-Modal Retrieval은 서로 다른 모달리티(예: 텍스트와 이미지) 간에 관련 항목을 찾는 작업으로, 학습 예제 없이 수행됩니다. 이 작업의 주요 과제는 이질성 간극(heterogeneity gap)입니다. 이질성 간극은 모달리티 간에 데이터 유형이 본질적으로 다르다는 점을 의미하며, 이로 인해 직접적인 유사도 측정이 어려워집니다. 이러한 문제를 해결하기 위해 기존 방법들은 공유 잠재 표현 공간(shared latent representation space)을 학습하여, 서로 다른 모달리티의 데이터를 동일한 표현 공간으로 투영합니다. 이렇게 하면, 서로 다른 모달리티의 항목 간에 직접 유사도를 측정할 수 있습니다. 이 기술은 전자상거래 등 분야에서 큰 응용 가치를 가지고 있습니다.