2ヶ月前
Recipe1M+: 調理法と食品画像のクロスモーダル埋め込みを学習するためのデータセット
Javier Marin; Aritro Biswas; Ferda Ofli; Nicholas Hynes; Amaia Salvador; Yusuf Aytar; Ingmar Weber; Antonio Torralba

要約
本論文では、100万以上の料理レシピと1300万以上の食品画像を含む新しい大規模構造化コーパスであるRecipe1M+を紹介します。公開されている最大のレシピデータコレクションとして、Recipe1M+は対応した多モーダルデータを使用して高容量モデルを訓練する能力を提供します。これらのデータを使用して、ニューラルネットワークを訓練し、レシピと画像の共通埋め込みを学習させました。その結果、画像-レシピ検索タスクにおいて優れた結果が得られました。さらに、上位分類目標の追加による正則化が検索性能を向上させ、人間の性能に匹敵するとともに、意味論的なベクトル演算を可能にすることを示しています。我々は、これらの埋め込みがRecipe1M+データセットや一般的な食品と調理に関するさらなる探求の基礎となることを提唱します。コード、データおよびモデルは公開されています。