6ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Zihao Wang Xihui Liu Hongsheng Li Lu Sheng Junjie Yan Xiaogang Wang Jing Shao

概要

テキスト-画像クロスモーダル検索は、言語と視覚の分野における挑戦的な課題である。従来の多数のアプローチは、画像と文を独立して統合埋め込み空間に埋め込み、それらの類似度を比較する方法を採用している。しかし、これらの手法は、統合空間における類似度計算の前段階で、画像と文の間の相互作用を十分に探求していない。直感的に言えば、画像と文のマッチングを行う際、人間は画像内の領域と文内の語を交互に注目し、両モダリティ間の相互作用を考慮して最も顕著な情報を選択する。本論文では、モダリティ間のメッセージ伝達における情報フローを適応的に制御する「クロスモーダル適応的メッセージ伝達（CAMP）」を提案する。本手法は、包括的かつ細粒度なクロスモーダル相互作用を考慮するだけでなく、適応的ゲーティング機構によりネガティブペアや関係のない情報を適切に処理する。さらに、従来のテキスト-画像マッチングにおける統合埋め込みアプローチとは異なり、融合特徴に基づいてマッチングスコアを推論し、訓練に向けた「最も困難なネガティブペアを用いたバイナリクロスエントロピー損失」を提案する。COCOおよびFlickr30kにおける実験結果は、最先端手法を顕著に上回り、本手法の有効性を実証している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Zihao Wang Xihui Liu Hongsheng Li Lu Sheng Junjie Yan Xiaogang Wang Jing Shao

概要

テキスト-画像クロスモーダル検索は、言語と視覚の分野における挑戦的な課題である。従来の多数のアプローチは、画像と文を独立して統合埋め込み空間に埋め込み、それらの類似度を比較する方法を採用している。しかし、これらの手法は、統合空間における類似度計算の前段階で、画像と文の間の相互作用を十分に探求していない。直感的に言えば、画像と文のマッチングを行う際、人間は画像内の領域と文内の語を交互に注目し、両モダリティ間の相互作用を考慮して最も顕著な情報を選択する。本論文では、モダリティ間のメッセージ伝達における情報フローを適応的に制御する「クロスモーダル適応的メッセージ伝達（CAMP）」を提案する。本手法は、包括的かつ細粒度なクロスモーダル相互作用を考慮するだけでなく、適応的ゲーティング機構によりネガティブペアや関係のない情報を適切に処理する。さらに、従来のテキスト-画像マッチングにおける統合埋め込みアプローチとは異なり、融合特徴に基づいてマッチングスコアを推論し、訓練に向けた「最も困難なネガティブペアを用いたバイナリクロスエントロピー損失」を提案する。COCOおよびFlickr30kにおける実験結果は、最先端手法を顕著に上回り、本手法の有効性を実証している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

CAMP：テキスト-画像検索におけるクロスモーダル適応型メッセージ伝達 | 記事 | HyperAI超神経