15일 전

이미지-텍스트 검색을 위한 깊이 있는 로컬 및 글로벌 장면-그래프 매칭

Manh-Duy Nguyen, Binh T. Nguyen, Cathal Gurrin
이미지-텍스트 검색을 위한 깊이 있는 로컬 및 글로벌 장면-그래프 매칭
초록

기존의 이미지-텍스트 검색 접근 방식은 주로 이미지에 나타나는 시각적 객체를 인덱싱하는 데 주력하지만, 이러한 객체 간의 상호작용은 무시하는 경향이 있다. 그러나 이미지 내 객체의 출현과 그 상호작용은 텍스트에서 흔히 언급되므로, 이 두 요소는 이 분야에서 동등하게 유용하고 중요한 정보를 제공한다. 장면 그래프(scene graph) 표현은 객체 간의 상호관계 정보를 효과적으로 포착할 수 있는 특성 덕분에 이미지-텍스트 매칭 문제에 적합한 방법으로 평가되며, 우수한 성능을 달성해 왔다. 이 방법은 이미지와 텍스트를 모두 장면 그래프 수준에서 표현하고, 검색 문제를 장면 그래프 매칭 문제로 재정의한다. 본 논문에서는 기존 최고 성능 기법을 향상시키기 위해 그래프의 일반적인 구조적 정보를 포착하기 위해 추가적인 그래프 컨볼루션 네트워크를 통합한 로컬 및 글로벌 장면 그래프 매칭(LGSGM) 모델을 제안한다. 구체적으로, 이미지와 해당 캡션의 장면 그래프 쌍에 대해 각각의 그래프 노드와 엣지 특징을 학습하기 위해 두 개의 독립적인 모델을 사용한다. 이후 시아메스(Siamese) 구조의 그래프 컨볼루션 모델을 활용하여 그래프를 벡터 형태로 임베딩한다. 마지막으로, 그래프 수준의 정보와 벡터 수준의 정보를 결합하여 이미지-텍스트 쌍 간의 유사도를 계산한다. 실증 실험 결과, 다중 수준 정보의 조합을 통한 본 연구의 개선 방식이 기준 모델의 성능을 향상시켜, Flickr30k 데이터셋에서 재현률(recall)을 10% 이상 증가시켰음을 확인하였다.

이미지-텍스트 검색을 위한 깊이 있는 로컬 및 글로벌 장면-그래프 매칭 | 최신 연구 논문 | HyperAI초신경