15日前

クロスモーダルフードリトリーバル:意味的一貫性とアテンション機構を用いたフード画像とレシピの共同埋め込み学習

Hao Wang, Doyen Sahoo, Chenghao Liu, Ke Shu, Palakorn Achananuparp, Ee-peng Lim, Steven C. H. Hoi
クロスモーダルフードリトリーバル:意味的一貫性とアテンション機構を用いたフード画像とレシピの共同埋め込み学習
要約

食品の検索は、食品に関連する情報を分析する上で重要なタスクであり、クエリされた食品項目に関する関連情報(例:材料、調理手順など)を取得することを目的としている。本論文では、食品画像と調理レシピの間におけるクロスモーダル検索に着目する。その目的は、画像とレシピを共通の特徴空間に埋め込み(embedding)することで、対応する画像-レシピの埋め込み表現が互いに近接するように学習することである。この問題に取り組む上で直面する二つの主要な課題は、1)クロスモーダルな食品データにおける大きなクラス内変動(intra-variance)と小さなクラス間変動(inter-variance);および2)判別力のあるレシピ表現を得ることが困難である点である。これらの課題に対処するために、本研究では「意味的一貫性とアテンションに基づくネットワーク(Semantic-Consistent and Attention-based Networks, SCAN)」を提案する。この手法は、出力される意味的確率を整合させることで、二つのモーダルの埋め込みを正則化する。さらに、レシピの埋め込みを向上させるために自己アテンション(self-attention)機構を活用する。提案手法の性能は、大規模なRecipe1Mデータセットを用いて評価され、複数の最先端のクロスモーダル検索手法と比較して、顕著な優位性を示した。

クロスモーダルフードリトリーバル:意味的一貫性とアテンション機構を用いたフード画像とレシピの共同埋め込み学習 | 最新論文 | HyperAI超神経