HyperAIHyperAI

Command Palette

Search for a command to run...

画像-テキストマッチングのためのディープクロスモーダルプロジェクション学習

Huchuan Lu Ying Zhang

概要

画像とテキストのマッチングの鍵となる点は、視覚的入力とテキスト的入力の類似度を正確に測定する方法にある。深層のクロスモーダル埋め込みと双方向ランキング損失を組み合わせる手法において、大きな進展が見られたものの、実用的な応用において有用なトリプレットを抽出する戦略の開発や、適切なマージンの選定という課題は依然として残っている。本研究では、識別的な画像-テキスト埋め込みを学習するための、クロスモーダル投影マッチング(CMPM)損失とクロスモーダル投影分類(CMPC)損失を提案する。CMPM損失は、ミニバッチ内に含まれるすべての正例および負例を用いて定義された正規化されたマッチング分布と、投影適合性分布との間のKLダイバージェンスを最小化する。一方、CMPC損失は、改善されたノルム-ソフトマックス損失を用いて、一方のモダリティの表現ベクトルを他方のモダリティに投影する際の分類を試み、各クラスの特徴の凝縮性をさらに高める。複数のデータセットにおける広範な分析および実験により、提案手法の優位性が実証された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
画像-テキストマッチングのためのディープクロスモーダルプロジェクション学習 | 記事 | HyperAI超神経