
要約
グローバル化の進展に伴うオンラインレシピ共有の急速な変化の中で、食品レシピの理解と生成に関する研究が顕著に増加しています。GPT-2 や LLaVA などの大規模言語モデル(LLM)の最近の進歩により、自然言語処理(NLP)アプローチが食品関連タスクの様々な側面、食材認識から包括的なレシピ生成まで、より深く掘り下げる道が開かれています。しかし、LLM の印象的な性能と多様なモダリティへの適応性にもかかわらず、特定ドメインでの訓練はその効果的な適用において依然として重要です。本研究では、既存の LLM をレシピ生成に評価し、多段階アプローチでキュレーションされた多様なレシピプロンプトデータセットを用いて訓練された新しいモデル LLaVA-Chef を提案します。まず、視覚的な食品画像埋め込みを言語空間にマッピングする精度を向上させます。次に、関連するレシピデータで微調整を行うことで LLaVA を食品ドメインに適応させます。さらに、多様なプロンプトを使用してモデルのレシピ理解能力を強化します。最後に、カスタム損失関数を用いて生成されるレシピの言語品質を向上させます。LLaVA-Chef は事前学習済みの LLM や従来の手法よりも大幅な改善を示しており、詳細な定性的分析では、既存手法と比較してより詳細で正確な食材の記述を持つレシピを生成することが明らかになっています。