음식 이미지 세그멘테이션을 위한 대규모 벤치마크

식품 이미지 세그멘테이션은 식품 칼로리 및 영양소 추정과 같은 건강 관련 응용 프로그램 개발에 있어 핵심적이고 필수적인 작업이다. 기존의 식품 이미지 세그멘테이션 모델은 두 가지 이유로 성능이 부족하다. 첫째, 세부적인 재료 레이블과 픽셀 단위의 위치 마스크를 갖춘 고품질 식품 이미지 데이터셋이 부족하다는 점이다. 기존 데이터셋은 대부분 대체로粗略한 재료 레이블만을 포함하거나, 데이터 양이 적은 편이다. 둘째, 식품의 복잡한 시각적 특성으로 인해 재료의 위치 추정과 인식이 어려운데, 예를 들어 동일한 이미지 내에서 재료가 서로 겹칠 수 있으며, 동일한 재료라도 다른 식품 이미지에서는 매우 다를 수 있기 때문이다. 본 연구에서는 9,490장의 이미지를 포함하는 새로운 식품 이미지 데이터셋인 FoodSeg103(및 확장 버전인 FoodSeg154)을 구축하였다. 이 데이터셋은 154개의 재료 클래스로 레이블링되었으며, 각 이미지당 평균 6개의 재료 레이블과 픽셀 단위 마스크를 제공한다. 또한, 세그멘테이션 모델에 풍부하고 의미 있는 식품 지식을 명시적으로 제공하는 다중 모달 전훈련 기법인 ReLeM을 제안한다. 실험에서는 세 가지 대표적인 세분화 방법(즉, 확장 컨볼루션 기반, 특징 피라미드 기반, 비전 트랜스포머 기반)을 베이스라인으로 사용하여, 본 연구에서 구축한 새로운 데이터셋에서 ReLeM 및 기존 모델의 성능을 평가하였다. 우리는 FoodSeg103(및 확장 버전인 FoodSeg154)과 ReLeM을 활용한 사전 훈련 모델이 향후 세부적인 식품 이미지 이해 연구를 촉진하는 기준(benchmark)이 될 수 있을 것이라 믿는다. 본 연구에서 개발한 모든 데이터셋과 방법론은 \url{https://xiongweiwu.github.io/foodseg103.html}에서 공개한다.