7ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

Gil Sadeh Benjamin Klein Lior Wolf Guy Lev

概要

近年、文と画像の関連付け問題は大きな注目を集めている。本研究では、画像の文書化および文による画像検索というタスクにおいて、性能のさらなる向上を実現するため、文の表現としてFisher Vectorを用いる手法を継続的に発展させている。具体的には、文内の各単語のword2vec埋め込みをプールして文の表現としてFisher Vectorを構成している。通常、Fisher Vectorはガウス混合モデル（GMM）のパラメータに関する記述子の対数尤度の勾配として定義される。本研究では、これに加えて2種類の新たな混合モデルを提案し、それぞれの期待値最大化（EM）アルゴリズムおよびFisher Vectorの表現を導出する。第一に、ラプラス分布に基づくラプラス混合モデル（LMM）を提案する。第二に、ガウス分布とラプラス分布の重み付き幾何平均に基づくハイブリッドガウス-ラプラス混合モデル（HGLMM）を提示する。最終的に、HGLMMから導かれる新しいFisher Vectorを文の表現に用いることで、Pascal1K、Flickr8K、Flickr30K、COCOの4つのベンチマークにおいて、画像の文書化および文による画像検索の両タスクで、現時点における最先端（SOTA）の性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

Gil Sadeh Benjamin Klein Lior Wolf Guy Lev

概要

近年、文と画像の関連付け問題は大きな注目を集めている。本研究では、画像の文書化および文による画像検索というタスクにおいて、性能のさらなる向上を実現するため、文の表現としてFisher Vectorを用いる手法を継続的に発展させている。具体的には、文内の各単語のword2vec埋め込みをプールして文の表現としてFisher Vectorを構成している。通常、Fisher Vectorはガウス混合モデル（GMM）のパラメータに関する記述子の対数尤度の勾配として定義される。本研究では、これに加えて2種類の新たな混合モデルを提案し、それぞれの期待値最大化（EM）アルゴリズムおよびFisher Vectorの表現を導出する。第一に、ラプラス分布に基づくラプラス混合モデル（LMM）を提案する。第二に、ガウス分布とラプラス分布の重み付き幾何平均に基づくハイブリッドガウス-ラプラス混合モデル（HGLMM）を提示する。最終的に、HGLMMから導かれる新しいFisher Vectorを文の表現に用いることで、Pascal1K、Flickr8K、Flickr30K、COCOの4つのベンチマークにおいて、画像の文書化および文による画像検索の両タスクで、現時点における最先端（SOTA）の性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています