15日前
マルチモーダル正則化を備えたTransformerデコーダによるクロスモーダルフード検索
Mustafa Shukor, Guillaume Couairon, Asya Grechka, Matthieu Cord

要約
近年、クロスモーダルな画像-レシピ検索は注目を集めている。従来の研究の多くは、単モーダルエンコーダーを用いてクロスモーダル表現を向上させることに注力しており、大規模データベースにおける効率的な検索を実現している。一方で、モーダル間の相互作用を扱うクロスアテンションは計算コストが高いため、多くの場合無視されてきた。本研究では、検索の際に単モーダルエンコーダーのみを用いることで効率性を確保しつつ、新たな正則化スキームによりモーダル間の相互作用を有効に活用する新しい検索フレームワーク「T-Food(Transformerデコーダーを用いた多モーダル正則化によるクロスモーダル食品検索)」を提案する。さらに、レシピ内のエンティティ間の内部依存関係を専用のレシピエンコーダーで捉え、タスクの難易度に応じて動的にマージンを調整する新たなトリプレット損失の変種を提案する。最後に、最近の視覚・言語事前学習(VLP)モデル、特にCLIPを画像エンコーダーとして活用することで、より強力な表現学習を実現した。提案手法はRecipe1Mデータセットにおいて、既存手法を大きく上回る性能を達成した。具体的には、1kおよび10kのテストセットにおいて、それぞれR@1で72.6(+8.1%)および44.6(+10.9%)の絶対的向上を達成した。実装コードは以下より公開されている:https://github.com/mshukor/TFood