HyperAIHyperAI
منذ 2 أشهر

الرؤية والتدريب المهيكل للغة لاسترجاع الطعام عبر الوسائط المتعددة

Shukor, Mustafa ; Thome, Nicolas ; Cord, Matthieu
الرؤية والتدريب المهيكل للغة لاسترجاع الطعام عبر الوسائط المتعددة
الملخص

التدريب المسبق للرؤية واللغة (VLP) ونماذج الأساس قد أصبحت الوصفة المفضلة لتحقيق أفضل الأداء في المعايير العامة. ومع ذلك، فإن الاستفادة من هذه التقنيات القوية لأداء مهام الرؤية واللغة الأكثر تعقيدًا، مثل تطبيقات الطهي، والتي تتطلب بيانات نصية أكثر هيكلية، ما زالت قليلة الدراسة. في هذا العمل، نقترح استغلال هذه التقنيات لمهمات الحوسبة الغذائية المستندة إلى النص الهيكلي. استراتيجيتنا، التي أطلقنا عليها اسم VLPCook، تقوم أولاً بتحويل الأزواج الموجودة من الصور والنصوص إلى أزواج من الصور والنصوص الهيكلية. هذا يسمح لنا بتدريب نموذج VLPCook لدينا باستخدام أهداف VLP متكيفة مع البيانات الهيكلية للمجموعات الناتجة، ثم تحسينه على مهمات الحوسبة الغذائية التالية. أثناء عملية التحسين، نثرich أيضًا كود الكشف البصري، مستفيدين من نماذج الأساس المدربة مسبقًا (مثل CLIP) لتوفير سياق نصي محلي وعالمي. يتفوق VLPCook بشكل كبير على أفضل الأداء الحالي بمقدار (+3.3 تحسن مطلق في استرجاع@1) في مهمة الاسترجاع العابر للأطعمة على مجموعة البيانات الكبيرة Recipe1M. نجري تجارب إضافية على VLP لتأكيد أهميتها، خاصة على مجموعة البيانات Recipe1M+. وأخيرًا، نؤكد قابلية تعميم النهج على مهمات أخرى (مثل التعرف على الطعام) وعلى مجالات تحتوي على نصوص هيكلية مثل المجال الطبي في مجموعة البيانات ROCO. يمكن الوصول إلى الكود هنا: https://github.com/mshukor/VLPCook

الرؤية والتدريب المهيكل للغة لاسترجاع الطعام عبر الوسائط المتعددة | أحدث الأوراق البحثية | HyperAI