8ヶ月前

マルチモーダル

マルチモーダル表現

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Dapeng Chen Hongsheng Li† Xihui Liu Yantao Shen Jing Shao Zejian Yuan Xiaogang Wang

概要

人物再識別は、異なる人物のアイデンティティを区別するために判別的な視覚的特徴を学習する重要なタスクです。多様な補助情報が利用されており、視覚的特徴の学習を改善しています。本論文では、効果的な視覚的特徴を学習するために自然言語の説明を追加の訓練監督として活用することを提案します。他の補助情報と比較して、言語はよりコンパクトで意味的な視覚的側面から特定の人物を描写できるため、ピクセルレベルの画像データに対して補完的な役割を果たします。当手法は、全体的な説明による監督によってより優れたグローバルな視覚的特徴を学習するとともに、局所的な視覚的および言語的特徴間の意味的一貫性も強制します。これは、グローバルおよび局所的な画像-言語関連性を構築することで達成されます。グローバルな画像-言語関連性はアイデンティティラベルに基づいて確立され、局所的な関連性は画像領域と名詞句との間の暗黙の対応に基づいています。広範な実験により、当手法が言語を訓練監督として利用することの有効性が示され、テスト時に任意の補助情報を使用せずに最先端の性能を達成し、画像-言語関連性に対する他の結合埋め込み手法よりも優れた性能を示すことが確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

マルチモーダル表現

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Dapeng Chen Hongsheng Li† Xihui Liu Yantao Shen Jing Shao Zejian Yuan Xiaogang Wang

概要

人物再識別は、異なる人物のアイデンティティを区別するために判別的な視覚的特徴を学習する重要なタスクです。多様な補助情報が利用されており、視覚的特徴の学習を改善しています。本論文では、効果的な視覚的特徴を学習するために自然言語の説明を追加の訓練監督として活用することを提案します。他の補助情報と比較して、言語はよりコンパクトで意味的な視覚的側面から特定の人物を描写できるため、ピクセルレベルの画像データに対して補完的な役割を果たします。当手法は、全体的な説明による監督によってより優れたグローバルな視覚的特徴を学習するとともに、局所的な視覚的および言語的特徴間の意味的一貫性も強制します。これは、グローバルおよび局所的な画像-言語関連性を構築することで達成されます。グローバルな画像-言語関連性はアイデンティティラベルに基づいて確立され、局所的な関連性は画像領域と名詞句との間の暗黙の対応に基づいています。広範な実験により、当手法が言語を訓練監督として利用することの有効性が示され、テスト時に任意の補助情報を使用せずに最先端の性能を達成し、画像-言語関連性に対する他の結合埋め込み手法よりも優れた性能を示すことが確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています