LLaVA-Chef: نموذج تولي متعدد الأوضاع لوصفات الطعام

في المناظر السريعة التطور لمشاركة الوصفات عبر الإنترنت في سياق عالمي، شهدت الأبحاث زيادة ملحوظة نحو فهم وإنشاء وصفات الطعام. وقد مهدت التقدمات الحديثة في نماذج اللغة الكبيرة (LLMs) مثل GPT-2 وLLaVA الطريق لأساليب معالجة اللغة الطبيعية (NLP) للغوص بشكل أعمق في جوانب مختلفة للمهام المتعلقة بالطعام، بما في ذلك تحديد المكونات وإنشاء الوصفات الشاملة. على الرغم من الأداء المثير للإعجاب والتكيف متعدد الأوضاع لنماذج اللغة الكبيرة (LLMs)، إلا أن التدريب الخاص بالمنطقة ما زال ضروريًا لتحقيق تطبيقات فعالة. يقيم هذا البحث النماذج الحالية من LLMs لإنشاء الوصفات ويقترح LLaVA-Chef، وهو نموذج جديد تم تدريبه على مجموعة بيانات مختارة تحتوي على دعوات وصفات متنوعة باستخدام نهج متعدد المراحل. أولاً، نقوم بتحسين ربط تضمين الصور الغذائية البصرية بفضاء اللغة. ثانياً، نتكيف LLaVA مع مجال الطعام عن طريق تعديلها على بيانات الوصفات ذات الصلة. ثالثاً، نستفيد من الدعوات المتنوعة لتعزيز فهم النموذج للوصفات. وأخيراً، نحسن جودة اللغة في الوصفات المنشأة عن طريق معاقبة النموذج باستخدام دالة خسارة مخصصة. يظهر LLaVA-Chef تحسينات كبيرة مقارنة بنماذج LLMs المسبقة والأعمال السابقة. وكشفت التحليل النوعي التفصيلي أن LLaVA-Chef يولد وصفات أكثر تفصيلاً مع ذكر دقيق للمكونات مقارنة بالأساليب الموجودة حاليًا.