
시각 및 언어 작업, 특히 이미지-텍스트 검색 작업을 위한 다양한 모델이 제안되어 왔다. 이 도전 과제에서 최고 성능을 기록하는(state-of-the-art, SOTA) 모든 모델들은 수억 개의 파라미터를 포함하고 있으며, 전 세계적으로 성능 향상이 입증된 대규모 외부 데이터셋을 사전 훈련(pretrained)하는 방식을 채택하고 있다. 수백 개의 GPU를 활용해 대규모 데이터셋에서 복잡한 아키텍처를 새로 설계하고 철저히 훈련하는 것은 이미 인터넷에서 공개된 많은 SOTA 모델을 능가하는 일에 매우 어렵다. 본 논문에서는 새로운 아키텍처를 설계하고 대규모 데이터셋에서 훈련하는 대신, 기존 사전 훈련된 모델들을 결합하여 더 나은 성능을 내는 컴팩트한 그래프 기반 프레임워크인 HADA를 제안한다. 먼저, 사전 훈련된 모델들로부터 추출한 특징을 노드로 하고, 이들 노드를 연결하는 엣지를 갖는 그래프 구조를 구성한다. 이 그래프 구조는 각 사전 훈련된 모델들 간의 정보를 포착하고 융합하는 데 활용된다. 이후 그래프 신경망(GNN)을 적용하여 노드 간의 연결을 업데이트함으로써 이미지 및 텍스트에 대한 대표적인 임베딩 벡터를 생성한다. 마지막으로 코사인 유사도를 사용하여 이미지와 관련된 텍스트를, 또는 그 반대로 매칭함으로써 낮은 추론 시간을 보장한다. 실험 결과, HADA는 학습 가능한 파라미터 수가 매우 적음에도 불구하고, Flickr30k 데이터셋에서 평가 지표 기준으로 기준 모델 성능을 3.6% 이상 향상시켰다. 또한 제안된 모델은 외부 데이터셋에 대한 훈련이 필요 없으며, 고성능 GPU를 수십 대 이상 사용할 필요 없이 단 1대의 GPU만으로도 훈련이 가능하다. 소스 코드는 https://github.com/m2man/HADA 에서 공개되어 있다.