17일 전

FoodSAM: 어떤 음식 분할

Xing Lan, Jiayi Lyu, Hanyu Jiang, Kun Dong, Zehai Niu, Yi Zhang, Jian Xue
FoodSAM: 어떤 음식 분할
초록

본 논문에서는 Segment Anything Model(SAM)의 제로샷(zero-shot) 능력을 식품 이미지 세그멘테이션에 적용하는 것을 탐구한다. SAM이 생성하는 마스크에는 클래스별 정보가 부족하다는 문제를 해결하기 위해, 본 연구는 새로운 프레임워크인 FoodSAM을 제안한다. 이 혁신적인 접근법은 SAM이 생성한 마스크와 조건부 의미 마스크(coarse semantic mask)를 통합함으로써 의미 세그멘테이션의 정확도를 향상시킨다. 또한, 식품에 포함된 재료들이 독립적인 개체로 간주될 수 있다는 점을 인식하여, 식품 이미지에 대한 인스턴스 세그멘테이션을 수행하는 것이 가능하다는 점을 강조한다. 더불어, 객체 탐지기(object detector)를 도입함으로써 FoodSAM은 팬오틱 세그멘테이션(panoptic segmentation)까지 제로샷 능력을 확장하여, 음식 외의 객체 정보도 효과적으로 포착할 수 있도록 한다. 최근의 프롬프트 기반 세그멘테이션(promptable segmentation)의 성공 사례를 영감으로 삼아, 본 연구는 FoodSAM을 프롬프트 기반 세그멘테이션으로 확장하여 다양한 프롬프트 유형을 지원한다. 결과적으로 FoodSAM은 식품 항목을 다양한 세부 수준에서 세그멘테이션할 수 있는 통합적인 솔루션으로 부상한다. 특히, 본 논문은 식품 이미지에 대해 인스턴스 세그멘테이션, 팬오틱 세그멘테이션, 프롬프트 기반 세그멘테이션을 동시에 달성한 최초의 연구로 주목할 만하다. 광범위한 실험을 통해 FoodSAM의 실현 가능성과 뛰어난 성능이 입증되었으며, SAM이 식품 이미지 세그멘테이션 분야에서 주목받는 핵심 도구로 자리매김할 잠재력을 확인할 수 있었다. 본 연구의 코드는 https://github.com/jamesjg/FoodSAM 에서 공개된다.

FoodSAM: 어떤 음식 분할 | 최신 연구 논문 | HyperAI초신경