2달 전

비전과 구조화된 언어 사전학습을 이용한 다중 모달 음식 검색

Shukor, Mustafa ; Thome, Nicolas ; Cord, Matthieu
비전과 구조화된 언어 사전학습을 이용한 다중 모달 음식 검색
초록

비전-언어 사전학습(Vision-Language Pretraining, VLP) 및 기초 모델(Foundation models)은 일반 벤치마크에서 최고 수준의 성능(SoTA)을 달성하기 위한 주요 방법론으로 자리 잡았습니다. 그러나 이러한 강력한 기술들을 요리 애플리케이션과 같은 더 복잡한 비전-언어 작업에 활용하는 것은 아직 충분히 연구되지 않았습니다. 본 연구에서는 구조화된 텍스트를 기반으로 하는 컴퓨테이셔널 쿠лина리 작업에 이러한 기술들을 활용하는 방법을 제안합니다. 우리의 전략인 VLPCook는 먼저 기존 이미지-텍스트 쌍을 이미지와 구조화된 텍스트 쌍으로 변환합니다. 이로 인해 VLPCook 모델은 결과 데이터셋의 구조화된 데이터에 맞춰 조정된 VLP 목표를 사용하여 사전 학습할 수 있으며, 이후 다운스트림 컴퓨테이셔널 요리 작업에 대해 미세 조정(finetuning)할 수 있습니다. 미세 조정 과정에서 우리는 사전 학습된 기초 모델(예: CLIP)을 활용하여 시각 인코더를 강화하고, 지역적 및 전역적인 텍스트 맥락을 제공합니다. VLPCook는 대규모 Recipe1M 데이터셋에서 교차 모달 식품 검색(Cross-Modal Food Retrieval) 작업에서 현행 최고 수준의 성능(SoTA)을 크게 개선(+3.3 Recall@1 절대 개선)하였습니다. 우리는 추가 실험을 통해 VLP의 중요성을 검증하였으며, 특히 Recipe1M+ 데이터셋에서 그 중요성을 확인하였습니다. 마지막으로, 우리는 이 접근 방식이 다른 작업(예: 식품 인식) 및 ROCO 데이터셋과 같은 구조화된 텍스트가 포함된 의료 분야에서도 일반화되는지를 검증하였습니다. 코드는 다음 링크에서 이용 가능합니다: https://github.com/mshukor/VLPCook

비전과 구조화된 언어 사전학습을 이용한 다중 모달 음식 검색 | 최신 연구 논문 | HyperAI초신경