مُفكِّكات ترانسفورمر مع تنظيم متعدد الوسائط لاسترجاع الطعام عبر الوسائط

حصل التحقق المتقاطع بين الصور والوصفات على اهتمام كبير في السنوات الأخيرة. وتركز معظم الدراسات على تحسين التمثيلات المتقاطعة باستخدام مشغلات أحادية النمط، مما يسمح بالاسترجاع الفعّال في قواعد بيانات ضخمة، مع تجاهل التفاعل بين النمطين (الصورة والنص) الذي يُعد أكثر تكلفة من الناحية الحسابية. نقترح إطارًا جديدًا للاسترجاع يُسمى T-Food (مشغلات الترجمة ذات التمثيل المتعدد مع تنظيم متقاطع للتحقق المتقاطع بين وصفات الطعام)، والذي يستغل التفاعل بين النمطين من خلال مخطط تنظيم مبتكر، مع الاعتماد فقط على مشغلات أحادية النمط في مرحلة الاختبار لضمان كفاءة الاسترجاع. كما نُعالج الاعتماديات الداخلية بين كيانات الوصفة باستخدام مشغل وصفة مخصص، ونُقدّم نسخًا جديدة من خسائر الثلاثيات ذات الحدود الديناميكية التي تتكيف مع صعوبة المهمة. وأخيرًا، نستفيد من قوة نماذج التدريب المسبق للرؤية واللغة (VLP) الحديثة مثل CLIP في مشغل الصور. يتفوق نهجنا على الطرق الحالية بمقدار كبير على مجموعة بيانات Recipe1M، حيث نحقق تحسينات مطلقة قدرها 8.1% (72.6 R@1) و10.9% (44.6 R@1) على مجموعتي الاختبار 1k و10k على التوالي. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/mshukor/TFood