19일 전

세부 사항을 중심으로 한 식사: 세부 식품 인식을 위한 LLM 기반 전문 네트워크

{Petia Radeva, Bhalaji Nagarajan, Ignacio Sarasúa, Marc Bolaños, Imanol G. Estepa, Pablo Villacorta, Jesús M. Rodríguez-de-Vera}
초록

정교한 음식 인식 분야에서, 부분 집합 학습 기반 방법은 클래스를 부분 집합으로 그룹화하여 학습 과정을 안내하는 전략적인 접근을 제공한다. 본 연구는 음식 분류를 위한 혁신적인 전문가 학습 프레임워크인 'Dining on Details (DoD)'라는 새로운 접근법을 제안한다. 이 방법은 대규모 언어 모델의 힘을 활용하여 데이터셋 내 클래스들의 부분 집합을 효과적으로 구성하는 데에 창의적인 활용을 보여준다. DoD의 효과성은 ImageBind 다중 모달 임베딩 공간의 강력한 안정성에 기반하며, 이는 다양한 카테고리 간에 의미 있는 유사성을 탐지할 수 있다. 엔드투엔드 다중 과제 학습 과정을 통해 훈련된 이 방법은 정교한 음식 인식 작업에서 성능을 향상시키며, 특히 매우 유사한 클래스들에 대해 뛰어난 성능을 발휘한다. DoD의 주요 장점은 보편적인 호환성으로, 기존의 어떤 분류 아키텍처에도 원활하게 적용 가능하다는 점이다. 다양한 음식 데이터셋과 컨볼루션 및 트랜스포머 기반 백본에 대한 포괄적인 검증을 통해, 본 방법은 0.5%에서 1.61%에 이르는 유의미한 성능 향상을 보이며 경쟁력 있는 결과를 달성하였으며, 특히 Food-101 데이터셋에서 최신 기술 수준(SOTA)의 성과를 달성하였다.