피셔 벡터를 이용한 신경망 단어 임베딩과 심층 이미지 표현의 연관성 연구

최근 몇 년간 문장과 이미지 간의 연관성 문제는 큰 주목을 받고 있다. 본 연구는 이 분야에서 지속적으로 한계를 넘어서며, 문장 기반 이미지 주석화 및 문장으로 이미지 검색하는 작업에서 성능을 더욱 향상시켰다. 본 연구에서는 문장 내 각 단어의 word2vec 임베딩을 풀링하여 피셔 벡터(Fisher Vector)를 문장 표현으로 사용한다. 일반적으로 피셔 벡터는 가우시안 혼합 모델(Gaussian Mixture Model, GMM)의 파라미터에 대한 서술자(descriptor)의 로그 가능도(log-likelihood)의 기울기로 간주된다. 본 연구에서는 두 가지 다른 혼합 모델을 제안하고, 각각에 대한 기대값-최대화(Expectation-Maximization, EM) 알고리즘 및 피셔 벡터 표현식을 도출한다. 첫 번째는 라플라스 분포(Laplacian distribution)를 기반으로 한 라플라스 혼합 모델(Laplacian Mixture Model, LMM)이며, 두 번째는 가우시안 분포와 라플라스 분포의 가중 기하 평균을 기반으로 한 하이브리드 가우시안-라플라스 혼합 모델(Hybrid Gaussian-Laplacian Mixture Model, HGLMM)이다. 마지막으로, HGLMM에서 도출된 새로운 피셔 벡터를 문장 표현으로 사용함으로써, Pascal1K, Flickr8K, Flickr30K, COCO의 네 가지 벤치마크에서 문장 기반 이미지 주석화 및 문장으로 이미지 검색 작업에서 최신 기술(SOTA, State-of-the-Art) 수준의 성능을 달성하였다.