2달 전

학습을 통한 이미지와 문장의 의미적 개념 및 순서 매칭

Yan Huang; Qi Wu; Liang Wang
학습을 통한 이미지와 문장의 의미적 개념 및 순서 매칭
초록

최근 이미지와 문장의 매칭이 큰 발전을 이뤘지만, 시각-의미 간의 큰 차이로 인해 여전히 어려움을 겪고 있습니다. 이는 주로 픽셀 수준의 이미지 표현이 매칭된 문장에서 발견되는 고급 의미 정보를 부족하게 갖추고 있기 때문입니다. 본 연구에서는 의미를 강화한 이미지와 문장 매칭 모델을 제안합니다. 이 모델은 의미 개념을 학습하여 이를 올바른 의미 순서로 구성함으로써 이미지 표현을 개선할 수 있습니다.주어진 이미지를 처리하기 위해 먼저 다중 영역 다중 라벨 CNN(다중 지역 다중 라벨 컨볼루션 신경망)을 사용하여 객체, 속성, 행동 등을 포함한 의미 개념을 예측합니다. 이후, 의미 개념의 다른 순서가 다양한 의미를 생성할 수 있다는 점을 고려하여, 문맥 게이트 문장 생성 방식을 사용하여 의미 순서 학습을 수행합니다. 이 방식은 이미지 전반적인 맥락과 개념 관계를 참조 자료로 사용하면서, 매칭된 문장에서의 실제 의미 순서를 감독 자료로 활용합니다.개선된 이미지 표현을 얻은 후, 일반적인 LSTM(장단기 기억 신경망)을 사용하여 문장 표현을 학습하고, 모델 학습을 위해 이미지와 문장 매칭 및 문장 생성을 동시에 수행합니다. 광범위한 실험 결과는 두 가지 공개 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성함으로써, 우리가 학습한 의미 개념과 순서의 효과성을 입증하였습니다.

학습을 통한 이미지와 문장의 의미적 개념 및 순서 매칭 | 최신 연구 논문 | HyperAI초신경