8ヶ月前

マルチモーダル

マルチモーダル表現

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Yikun Liu Jiangchao Yao Ya Zhang Yanfeng Wang Weidi Xie

概要

本論文では、複合画像検索（Composed Image Retrieval: CIR）の問題を取り扱います。CIRは、テキストと画像などの多様なモダリティ情報を融合するモデルを訓練し、クエリに正確に一致する画像を検索することで、ユーザーの表現能力を拡張することを目指しています。以下の貢献を行いました：(i) 大規模な画像-テキストペアデータセット（例：LAION-5Bのサブセット）を単純に活用して、CIRモデルの学習用データセットを自動的に構築するスケーラブルなパイプラインを提案しました；(ii) 簡単かつ効率的な融合メカニズムを採用し、異なるモダリティからの情報を適応的に組み合わせるトランスフォーマーベースの適応集約モデル（TransAgg）を導入しました；(iii) 提案したデータ構築手順の有用性とTransAggの主要コンポーネントの有効性について、広範な削減研究を行いました；(iv) 公開されているベンチマーク（例：CIRRおよびFashionIQ）でゼロショットシナリオ下での評価を行い、自動構築されたデータセットで学習後、直接対象となるダウンストリームデータセット上で推論を行う場合、提案手法は既存の最先端（State-of-the-Art: SOTA）モデルと同等か、または著しく優れた性能を示しました。プロジェクトページ: https://code-kunkun.github.io/ZS-CIR/

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

マルチモーダル表現

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Yikun Liu Jiangchao Yao Ya Zhang Yanfeng Wang Weidi Xie

概要

本論文では、複合画像検索（Composed Image Retrieval: CIR）の問題を取り扱います。CIRは、テキストと画像などの多様なモダリティ情報を融合するモデルを訓練し、クエリに正確に一致する画像を検索することで、ユーザーの表現能力を拡張することを目指しています。以下の貢献を行いました：(i) 大規模な画像-テキストペアデータセット（例：LAION-5Bのサブセット）を単純に活用して、CIRモデルの学習用データセットを自動的に構築するスケーラブルなパイプラインを提案しました；(ii) 簡単かつ効率的な融合メカニズムを採用し、異なるモダリティからの情報を適応的に組み合わせるトランスフォーマーベースの適応集約モデル（TransAgg）を導入しました；(iii) 提案したデータ構築手順の有用性とTransAggの主要コンポーネントの有効性について、広範な削減研究を行いました；(iv) 公開されているベンチマーク（例：CIRRおよびFashionIQ）でゼロショットシナリオ下での評価を行い、自動構築されたデータセットで学習後、直接対象となるダウンストリームデータセット上で推論を行う場合、提案手法は既存の最先端（State-of-the-Art: SOTA）モデルと同等か、または著しく優れた性能を示しました。プロジェクトページ: https://code-kunkun.github.io/ZS-CIR/

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています