HyperAIHyperAI

Command Palette

Search for a command to run...

ビジュアルと構造化言語の事前学習を用いたクロスモーダルな食品検索

Mustafa Shukor Nicolas Thome Matthieu Cord

概要

Vision-Language Pretraining (VLP) と Foundation モデルは、一般的なベンチマークで最先端の性能を達成するための主要な手法となっています。しかし、これらの強力な技術を料理アプリケーションなどのより複雑な視覚言語タスクに適用し、より構造化された入力データを使用する研究はまだ十分に行われていません。本研究では、これらの技術を構造化テキストに基づく計算料理タスクに活用することを提案します。私たちの戦略、VLPCook はまず既存の画像-テキストペアを画像と構造化テキストのペアに変換します。これにより、結果得られるデータセットの構造化データに適応した VLP 目的関数を使用して VLPCook モデルを事前学習し、その後下流の計算料理タスクで微調整することができます。微調整時には、視覚エンコーダーも豊かにし、事前に学習された Foundation モデル(例:CLIP)を利用して局所的および全体的なテキストコンテクストを提供します。VLPCook は大規模な Recipe1M データセットでのクロスモーダル食品検索タスクにおいて、現行の最先端モデルに対して大幅に優れた性能(+3.3 Recall@1 の絶対的な改善)を示しています。さらに VLP の重要性を検証するために Recipe1M+ データセットでの実験を行いました。最後に、当手法が他のタスク(例:食品認識)や ROCO データセットのような構造化テキストを持つ医療分野にも一般化可能であることを確認しました。コードは以下のリンクから入手可能です: https://github.com/mshukor/VLPCook


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています