15日前

クロスモーダル検索および合成（X-MRS）：共有表現学習におけるモダリティギャップの解消

Ricardo Guerrero, Hai Xuan Pham, Vladimir Pavlovic

要約

計算科学による食品分析（Computational Food Analysis; CFA）は、特定の食品に関するマルチモーダルな証拠（例えば画像やレシピテキストなど）を自然に必要とする。CFAを実現する鍵となる技術は、マルチモーダル共有表現学習（multi-modal shared representation learning）であり、これはデータの複数の視点（テキストと画像）を統合した共通の表現を学習することを目的としている。本研究では、食品データに豊富に含まれる意味的豊かさを保持しつつ、食品ドメインに特化したクロスモーダル共有表現学習の手法を提案する。提案手法は、効果的なTransformerベースの多言語レシピエンコーダと従来の画像埋め込みアーキテクチャを組み合わせている。特に、不完全な多言語翻訳を活用することで、モデルの正則化を効果的に行いながら、複数の言語および文字体系に対応する機能性を付加している。公開データセットRecipe1Mを用いた実験分析の結果、提案手法によって学習された表現は、情報検索タスクにおいて現在の最先端技術（SOTA）を顕著に上回ることが示された。さらに、レシピ埋め込みを条件とする生成型食品画像合成モデルを用いて、学習された表現の表現力が検証された。合成された画像は対応するサンプルの視覚的特徴を効果的に再現しており、学習された表現がテキストレシピとその視覚的コンテンツの両者の共同意味を適切に捉えていることを示しており、モダリティ間のギャップを明確に縮小している。