2달 전

LLaVA-Chef: 음식 레시피를 위한 다중 모드 생성 모델

Fnu Mohbat; Mohammed J. Zaki
LLaVA-Chef: 음식 레시피를 위한 다중 모드 생성 모델
초록

글로벌화된 맥락에서 온라인 레시피 공유의 급속히 변화하는 환경 속에서, 음식 레시피 이해와 생성에 대한 연구가 눈에 띄게 증가하고 있습니다. GPT-2와 LLaVA와 같은 대형 언어 모델(Large Language Models, LLMs)의 최근 발전은 자연어 처리(Natural Language Processing, NLP) 접근법이 식재료 인식과 포괄적인 레시피 생성 등 다양한 음식 관련 작업을 더 깊이 탐구할 수 있는 길을 열었습니다. 그러나 LLMs의 인상적인 성능과 다중 모드 적응성에도 불구하고, 도메인 특화 훈련은 그들의 효과적인 활용을 위해 필수적입니다. 본 연구에서는 기존의 LLMs를 레시피 생성에 평가하고, 다단계 접근 방식으로 다양한 레시피 프롬프트를 포함한 큐레이션 데이터셋에서 훈련된 새로운 모델인 LLaVA-Chef를 제안합니다. 첫째, 시각적 음식 이미지 임베딩을 언어 공간으로 정교하게 매핑합니다. 둘째, 관련 레시피 데이터로 미세 조정하여 LLaVA를 음식 도메인에 맞춥니다. 셋째, 다양한 프롬프트를 사용하여 모델의 레시피 이해력을 강화합니다. 마지막으로, 사용자 정의 손실 함수로 모델을 패널티를 주어 생성된 레시피의 언어 품질을 개선합니다. LLaVA-Chef는 사전 훈련된 LLMs와 이전 연구들보다 크게 개선된 성능을 보여주며, 상세한 질적 분석 결과 LLaVA-Chef가 기존 방법론보다 더욱 구체적인 레시피를 생성하며 재료 언급도 정확하다는 것을 확인할 수 있었습니다.