8ヶ月前

画像間変換

マルチモーダル

Kuniaki Saito Kihyuk Sohn Xiang Zhang Chun-Liang Li Chen-Yu Lee Kate Saenko Tomas Pfister

概要

組合画像検索（Composed Image Retrieval: CIR）では、ユーザーがクエリ画像とテキストを組み合わせて目的の対象を説明します。既存の手法は、クエリ画像、テキスト仕様、および対象画像からなるラベル付き三つ組を使用してCIRモデルの教師あり学習に依存しています。このような三つ組のラベル付けはコストがかかり、CIRの広範な応用を妨げています。本研究では、重要なタスクであるゼロショット組合画像検索（Zero-Shot Composed Image Retrieval: ZS-CIR）について考察し、訓練にラベル付き三つ組を必要としないCIRモデルの構築を目指します。この目的達成のために、弱いラベル付き画像-キャプションペアと未ラベル画像データセットのみを使用して訓練できる新しい手法Pic2Wordを提案します。既存の教師ありCIRモデルとは異なり、当モデルは弱いラベルまたは未ラベルデータセットで訓練され、属性編集、オブジェクト合成、ドメイン変換などの多様なZS-CIRタスクにおいて強力な汎化性能を示します。当アプローチは一般的なCIRベンチマークであるCIRRおよびFashion-IQにおいていくつかの教師ありCIR手法を上回ります。コードは https://github.com/google-research/composed_image_retrieval で公開されます。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

画像間変換

マルチモーダル

Kuniaki Saito Kihyuk Sohn Xiang Zhang Chun-Liang Li Chen-Yu Lee Kate Saenko Tomas Pfister

概要

組合画像検索（Composed Image Retrieval: CIR）では、ユーザーがクエリ画像とテキストを組み合わせて目的の対象を説明します。既存の手法は、クエリ画像、テキスト仕様、および対象画像からなるラベル付き三つ組を使用してCIRモデルの教師あり学習に依存しています。このような三つ組のラベル付けはコストがかかり、CIRの広範な応用を妨げています。本研究では、重要なタスクであるゼロショット組合画像検索（Zero-Shot Composed Image Retrieval: ZS-CIR）について考察し、訓練にラベル付き三つ組を必要としないCIRモデルの構築を目指します。この目的達成のために、弱いラベル付き画像-キャプションペアと未ラベル画像データセットのみを使用して訓練できる新しい手法Pic2Wordを提案します。既存の教師ありCIRモデルとは異なり、当モデルは弱いラベルまたは未ラベルデータセットで訓練され、属性編集、オブジェクト合成、ドメイン変換などの多様なZS-CIRタスクにおいて強力な汎化性能を示します。当アプローチは一般的なCIRベンチマークであるCIRRおよびFashion-IQにおいていくつかの教師ありCIR手法を上回ります。コードは https://github.com/google-research/composed_image_retrieval で公開されます。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Pic2Word: 画像を単語にマッピングしてゼロショット合成画像検索を行う | 記事 | HyperAI超神経