15日前

階層型Transformerと自己教師学習を活用したクロスモーダルレシピ検索の刷新

Amaia Salvador, Erhan Gundogdu, Loris Bazzani, Michael Donoser
階層型Transformerと自己教師学習を活用したクロスモーダルレシピ検索の刷新
要約

クロスモーダルレシピ検索は、人々の生活における食事の重要性に加え、機械学習モデルの学習に利用可能な膨大なデジタルレシピデータおよび食品画像の存在により、近年注目を集めています。本研究では、既存のクロスモーダルレシピ検索手法を再検討し、テキストおよび画像の両方に対して確立された高性能なエンコーダーを基盤とした簡略化されたエンドツーエンドモデルを提案します。さらに、レシピの個々の構成要素(タイトル、材料、手順)を注意深く符号化する階層的レシピTransformerを導入します。また、個々のレシピ構成要素のペアに対して計算される自己教師付き損失関数を提案し、レシピ内の意味的関係を活用可能にすることで、画像-レシピペアおよびレシピ単体のサンプルを用いた学習を可能にします。設計選択の妥当性を検証するため、包括的な分析およびアブレーションスタディを実施しました。その結果、本手法はRecipe1Mデータセットにおけるクロスモーダルレシピ検索タスクで最先端の性能を達成しました。コードおよびモデルは公開しています。

階層型Transformerと自己教師学習を活用したクロスモーダルレシピ検索の刷新 | 最新論文 | HyperAI超神経