17日前

CurlingNet:ファッションIQデータにおける画像とテキスト間の構成学習

Youngjae Yu, Seunghwan Lee, Yuncheol Choi, Gunhee Kim
CurlingNet:ファッションIQデータにおける画像とテキスト間の構成学習
要約

本稿では、画像-テキスト埋め込みの構成における意味的距離を測定可能な手法として「CurlingNet」を提案する。ファッション分野のデータに対して効果的な画像-テキスト構成を学習するため、本モデルは以下の2つの主要な構成要素を導入している。第一に、「Delivery」は、ソース画像を埋め込み空間内で変換する機能を担う。第二に、「Sweeping」は、埋め込み空間内においてクエリに関連するファッション画像の特徴成分を強調する。この実現のために、チャネル単位のゲート機構を採用している。本モデルは単体で、TIRGやFiLMを含む従来の最先端画像-テキスト構成モデルを上回る性能を達成した。また、ICCV 2019で開催された初回のFashion-IQチャレンジに参加し、本モデルのアンサンブルは最良の成績の一つを達成した。

CurlingNet:ファッションIQデータにおける画像とテキスト間の構成学習 | 最新論文 | HyperAI超神経