HyperAIHyperAI

Command Palette

Search for a command to run...

多モーダル畳み込みニューラルネットワークによる画像と文のマッチング

Lin Ma; Zhengdong Lu; Lifeng Shang; Hang Li

概要

本論文では、画像と文のマッチングに用いる多モーダル畳み込みニューラルネットワーク(m-CNN)を提案します。我々のm-CNNは、画像表現、単語構成、および両モーダル間のマッチング関係を活用するための畳み込みアーキテクチャに基づくエンドツーエンドのフレームワークを提供します。より具体的には、画像コンテンツを符号化する1つの画像CNNと、画像と文の共同表現を学習する1つのマッチングCNNから構成されています。マッチングCNNは単語を異なる意味的な断片に構成し、異なるレベルで画像と構成された断片との間のモーダル間関係を学習することで、画像と文の間のマッチング関係を十分に活用します。双方向的な画像と文検索のベンチマークデータベースでの実験結果は、提案したm-CNNが画像と文のマッチングに必要な情報を効果的に捉えることができることを示しています。特に、Flickr30KおよびMicrosoft COCOデータベースにおける双方向的な画像と文検索に対する我々が提案したm-CNNは最先端の性能を達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています