تعلم التمثيلات متعددة الوسائط باستخدام الشبكات المعادية لوصفات الطبخ وصور الطعام

الحساب الحاسوبي للطعام يلعب دورًا متزايد الأهمية في حياة الإنسان اليومية، وقد وجد تطبيقات عديدة في توجيه السلوك البشري نحو استهلاك ذكي للطعام ونمط حياة صحي. من بين المهام الهامة التي تندرج تحت مظلة الحساب الحاسوبي للطعام، هناك مهمة الاسترجاع، والتي تكون مفيدة بشكل خاص في التطبيقات المتعلقة بالصحة، حيث نهتم باسترجاع المعلومات الهامة عن الطعام (مثل المكونات والتغذية وما إلى ذلك). في هذا البحث، ندرس مهمة بحث متعددة الوسائط مفتوحة بين وصفات الطهي وصور الطعام، ونقترح إطارًا جديدًا يُسمى التضمين المتعدد الوسائط المعادي (Adversarial Cross-Modal Embedding - ACME) لحل مهمة الاسترجاع المتعدد الوسائط في مجالات الطعام. تحديدًا، الهدف هو تعلم فضاء خصائص مشترك بين الوسيلتين، حيث يتكون نهجنا من عدة أفكار جديدة: (i) التعلم باستخدام نظام خسارة ثلاثي جديد مع استراتيجية عينية فعالة، (ii) فرض التناسق بين الوسائط باستخدام استراتيجية التعلم المعادية، و(iii) فرض ثبات الترجمة المتعددة الوسائط بحيث يمكن للتضمين في إحدى الوسائط استعادة بعض المعلومات الهامة للمثيلات المقابلة في الوسيطة الأخرى. حقق ACME أداءً رائدًا على مجموعة البيانات المرجعية Recipe1M، مما يؤكد فعالية التقنية المقترحة.