
要約
近年、文と画像の関連付け問題は大きな注目を集めている。本研究では、画像の文書化および文による画像検索というタスクにおいて、性能のさらなる向上を実現するため、文の表現としてFisher Vectorを用いる手法を継続的に発展させている。具体的には、文内の各単語のword2vec埋め込みをプールして文の表現としてFisher Vectorを構成している。通常、Fisher Vectorはガウス混合モデル(GMM)のパラメータに関する記述子の対数尤度の勾配として定義される。本研究では、これに加えて2種類の新たな混合モデルを提案し、それぞれの期待値最大化(EM)アルゴリズムおよびFisher Vectorの表現を導出する。第一に、ラプラス分布に基づくラプラス混合モデル(LMM)を提案する。第二に、ガウス分布とラプラス分布の重み付き幾何平均に基づくハイブリッドガウス-ラプラス混合モデル(HGLMM)を提示する。最終的に、HGLMMから導かれる新しいFisher Vectorを文の表現に用いることで、Pascal1K、Flickr8K、Flickr30K、COCOの4つのベンチマークにおいて、画像の文書化および文による画像検索の両タスクで、現時点における最先端(SOTA)の性能を達成した。