Command Palette
Search for a command to run...
{Gil Sadeh Benjamin Klein Lior Wolf Guy Lev}

초록
최근 몇 년간 문장과 이미지 간의 연관성 문제는 큰 주목을 받고 있다. 본 연구는 이 분야에서 지속적으로 한계를 넘어서며, 문장 기반 이미지 주석화 및 문장으로 이미지 검색하는 작업에서 성능을 더욱 향상시켰다. 본 연구에서는 문장 내 각 단어의 word2vec 임베딩을 풀링하여 피셔 벡터(Fisher Vector)를 문장 표현으로 사용한다. 일반적으로 피셔 벡터는 가우시안 혼합 모델(Gaussian Mixture Model, GMM)의 파라미터에 대한 서술자(descriptor)의 로그 가능도(log-likelihood)의 기울기로 간주된다. 본 연구에서는 두 가지 다른 혼합 모델을 제안하고, 각각에 대한 기대값-최대화(Expectation-Maximization, EM) 알고리즘 및 피셔 벡터 표현식을 도출한다. 첫 번째는 라플라스 분포(Laplacian distribution)를 기반으로 한 라플라스 혼합 모델(Laplacian Mixture Model, LMM)이며, 두 번째는 가우시안 분포와 라플라스 분포의 가중 기하 평균을 기반으로 한 하이브리드 가우시안-라플라스 혼합 모델(Hybrid Gaussian-Laplacian Mixture Model, HGLMM)이다. 마지막으로, HGLMM에서 도출된 새로운 피셔 벡터를 문장 표현으로 사용함으로써, Pascal1K, Flickr8K, Flickr30K, COCO의 네 가지 벤치마크에서 문장 기반 이미지 주석화 및 문장으로 이미지 검색 작업에서 최신 기술(SOTA, State-of-the-Art) 수준의 성능을 달성하였다.
벤치마크
| 벤치마크 | 방법론 | 지표 |
|---|---|---|
| video-retrieval-on-youcook2 | HGLMM FV CCA | text-to-video Median Rank: 75 text-to-video R@1: 4.6 text-to-video R@10: 21.6 text-to-video R@5: 14.3 |