17일 전

이미지 및 텍스트 융합을 통한 UPMC Food-101 데이터셋 처리: BERT 및 CNN 기반 접근법

{and Riccardo La Grassa, Nicola Landro, Gianmarco Ria, Ignazio Gallo}
이미지 및 텍스트 융합을 통한 UPMC Food-101 데이터셋 처리: BERT 및 CNN 기반 접근법
초록

현대 디지털 세계는 점점 더 다중모달(multimodal)화되고 있다. 인터넷을 탐색할 때 이미지와 텍스트가 자주 함께 나타나기 때문에, 이 두 가지 모달을 포함한 분류 문제는 매우 흔하다.본 논문에서는 동일한 개념에 대한 텍스트 정보와 시각적 표현을 활용한 다중모달 분류를 탐구한다.우리는 다중모달 융합을 수행하기 위한 두 가지 주요 기초 방법을 검토하고, 이를 스�acking(stacking) 기법과 결합하여 이와 같은 문제를 더 효과적으로 다루도록 개선한다.이 연구에서는 다소 어려우며 노이즈가 많은 다중모달 데이터셋인 UPMC Food-101을 사용하였으며, 이는 해당 유형의 다중모달 문제를 잘 대표한다.실험 결과, 제안하는 조기 융합(early fusion) 기법과 스�acking 기반 접근법을 결합한 방법이 사용된 데이터셋에서 기존 최고 성능(state-of-the-art)을 초월함을 확인하였다.

이미지 및 텍스트 융합을 통한 UPMC Food-101 데이터셋 처리: BERT 및 CNN 기반 접근법 | 최신 연구 논문 | HyperAI초신경