
要約
Vision-Language Pretraining (VLP) と Foundation モデルは、一般的なベンチマークで最先端の性能を達成するための主要な手法となっています。しかし、これらの強力な技術を料理アプリケーションなどのより複雑な視覚言語タスクに適用し、より構造化された入力データを使用する研究はまだ十分に行われていません。本研究では、これらの技術を構造化テキストに基づく計算料理タスクに活用することを提案します。私たちの戦略、VLPCook はまず既存の画像-テキストペアを画像と構造化テキストのペアに変換します。これにより、結果得られるデータセットの構造化データに適応した VLP 目的関数を使用して VLPCook モデルを事前学習し、その後下流の計算料理タスクで微調整することができます。微調整時には、視覚エンコーダーも豊かにし、事前に学習された Foundation モデル(例:CLIP)を利用して局所的および全体的なテキストコンテクストを提供します。VLPCook は大規模な Recipe1M データセットでのクロスモーダル食品検索タスクにおいて、現行の最先端モデルに対して大幅に優れた性能(+3.3 Recall@1 の絶対的な改善)を示しています。さらに VLP の重要性を検証するために Recipe1M+ データセットでの実験を行いました。最後に、当手法が他のタスク(例:食品認識)や ROCO データセットのような構造化テキストを持つ医療分野にも一般化可能であることを確認しました。コードは以下のリンクから入手可能です: https://github.com/mshukor/VLPCook