6ヶ月前

マルチモーダル

マルチモーダル表現

テキストから画像生成

マルチモーダル

Bohyung Han Dongwan Kim Seungmin Lee

概要

テキストフィードバックを用いた画像検索というタスクに取り組み、参照画像と修飾用テキストを組み合わせて目的のターゲット画像を特定することを目的とする。本研究では、マルチモーダル入力を統合してターゲット画像と類似した表現を生成する「画像-テキスト合成器（image-text compositor）」の設計に焦点を当てる。提案するアルゴリズムであるコンテンツ・スタイル変調（Content-Style Modulation, CoSMo）では、深層ニューラルネットワークに基づく2つのモジュール、すなわちコンテンツ変調器とスタイル変調器を導入する。コンテンツ変調器は、参照画像のスタイルを正規化した後に、局所的な特徴更新を実行する。この過程で、コンテンツとスタイルを分離可能なマルチモーダル非局所ブロックを用いて、望ましいコンテンツの変更を実現する。その後、スタイル変調器が更新された特徴に再びグローバルなスタイル情報を導入する。本研究では、アルゴリズムの詳細な構成と設計選択の根拠を提示し、複数の画像-テキスト検索ベンチマークにおいて優れた性能を達成することを示す。コードは以下のURLから公開されている：https://github.com/postBG/CosMo.pytorch

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

マルチモーダル表現

テキストから画像生成

マルチモーダル

Bohyung Han Dongwan Kim Seungmin Lee

概要

テキストフィードバックを用いた画像検索というタスクに取り組み、参照画像と修飾用テキストを組み合わせて目的のターゲット画像を特定することを目的とする。本研究では、マルチモーダル入力を統合してターゲット画像と類似した表現を生成する「画像-テキスト合成器（image-text compositor）」の設計に焦点を当てる。提案するアルゴリズムであるコンテンツ・スタイル変調（Content-Style Modulation, CoSMo）では、深層ニューラルネットワークに基づく2つのモジュール、すなわちコンテンツ変調器とスタイル変調器を導入する。コンテンツ変調器は、参照画像のスタイルを正規化した後に、局所的な特徴更新を実行する。この過程で、コンテンツとスタイルを分離可能なマルチモーダル非局所ブロックを用いて、望ましいコンテンツの変更を実現する。その後、スタイル変調器が更新された特徴に再びグローバルなスタイル情報を導入する。本研究では、アルゴリズムの詳細な構成と設計選択の根拠を提示し、複数の画像-テキスト検索ベンチマークにおいて優れた性能を達成することを示す。コードは以下のURLから公開されている：https://github.com/postBG/CosMo.pytorch

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています