HyperAIHyperAI
منذ 15 أيام

إعادة هندسة استرجاع الوصفات متعددة الوسائط باستخدام المحولات الهرمية والتعلم التلقائي التحفيزي

Amaia Salvador, Erhan Gundogdu, Loris Bazzani, Michael Donoser
إعادة هندسة استرجاع الوصفات متعددة الوسائط باستخدام المحولات الهرمية والتعلم التلقائي التحفيزي
الملخص

حصلت إعادة استرجاع الوصفات عبر الوسائط المختلفة مؤخرًا على اهتمام كبير نظرًا لأهمية الطعام في حياة الناس، فضلًا عن توفر كم هائل من الوصفات الطهي الرقمية والصور الغذائية التي يمكن استخدامها لتدريب نماذج التعلم الآلي. في هذا العمل، نعيد النظر في النماذج الحالية لإعادة الاسترجاع عبر الوسائط المختلفة للوصفات، ونقترح نموذجًا مبسطًا يعتمد على التحويلات النهائية (end-to-end) مبنيًا على مشفرات مثبتة وفعّالة للغاية للنصوص والصور. نُقدّم نموذج "Transformer وصفات هرمي" يقوم بتشفير مكونات الوصفة الفردية (العناوين، المكونات، والتعليمات) باستخدام آلية انتباه ذكية. علاوةً على ذلك، نقترح دالة خسارة ذاتية التدريب (self-supervised loss function) تُحسب على أزواج من المكونات الفردية للوصفات، وهي قادرة على استغلال العلاقات الدلالية داخل الوصفات، وتمكّن التدريب باستخدام عينات مكونة من صور ووصفات، وكذلك عينات وصفات فقط. قمنا بتحليل شامل ودراسات إزالة (ablation studies) لتأكيد صحة خيارات التصميم المتبعة. وفي النتيجة، حقق النهج المقترح أداءً متفوقًا على مستوى الحد الأقصى (state-of-the-art) في مهمة إعادة الاسترجاع عبر الوسائط المختلفة للوصفات على مجموعة بيانات Recipe1M. ونُعلن عن إتاحة الكود والنماذج للجمهور بشكل عام.

إعادة هندسة استرجاع الوصفات متعددة الوسائط باستخدام المحولات الهرمية والتعلم التلقائي التحفيزي | أحدث الأوراق البحثية | HyperAI