HyperAIHyperAI

Command Palette

Search for a command to run...

CoSMo:テキストフィードバックを用いた画像検索におけるコンテント・スタイルモジュレーション

Bohyung Han Dongwan Kim Seungmin Lee

概要

テキストフィードバックを用いた画像検索というタスクに取り組み、参照画像と修飾用テキストを組み合わせて目的のターゲット画像を特定することを目的とする。本研究では、マルチモーダル入力を統合してターゲット画像と類似した表現を生成する「画像-テキスト合成器(image-text compositor)」の設計に焦点を当てる。提案するアルゴリズムであるコンテンツ・スタイル変調(Content-Style Modulation, CoSMo)では、深層ニューラルネットワークに基づく2つのモジュール、すなわちコンテンツ変調器とスタイル変調器を導入する。コンテンツ変調器は、参照画像のスタイルを正規化した後に、局所的な特徴更新を実行する。この過程で、コンテンツとスタイルを分離可能なマルチモーダル非局所ブロックを用いて、望ましいコンテンツの変更を実現する。その後、スタイル変調器が更新された特徴に再びグローバルなスタイル情報を導入する。本研究では、アルゴリズムの詳細な構成と設計選択の根拠を提示し、複数の画像-テキスト検索ベンチマークにおいて優れた性能を達成することを示す。コードは以下のURLから公開されている:https://github.com/postBG/CosMo.pytorch


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています