الاسترجاع الغذائي عبر الوسائط: تعلّم تمثيل مشترك للصور الغذائية والوصفات مع الاتساق الدلالي وآلية الانتباه

استرجاع الطعام هو مهمة مهمة لتحليل المعلومات المتعلقة بالطعام، حيث نهتم باسترجاع المعلومات ذات الصلة بالمنتج الغذائي المطلوب، مثل المكونات، وإرشادات الطهي، إلخ. في هذه الورقة، نستعرض استرجاعًا متعدد الأوجه بين صور الطعام ووصفات الطهي. الهدف هو تعلم تمثيل لصور الطعام ووصفات الطهي في فضاء ميزة مشترك، بحيث تقع تمثيلات الصور والوصفات المقابلة بالقرب من بعضها البعض. هناك تحديان رئيسيان في معالجة هذه المشكلة: الأول هو التباين الكبير داخليًا والتمايز الصغير بين الأنواع في بيانات الطعام متعددة الأوجه؛ والثاني هو صعوبة الحصول على تمثيلات وصفات تمييزية. لحل هذين التحديين، نقترح شبكة ذات اتساق دلالي وآليات انتباه (SCAN)، التي تُنظم تمثيلات الكائنين من خلال محاذاة احتمالات المعاني الناتجة. علاوةً على ذلك، نستفيد من آلية انتباه ذاتي لتحسين تمثيل وصفات الطهي. وقد قُمنا بتقييم أداء الطريقة المقترحة على مجموعة بيانات وصفات كبيرة الحجم Recipe1M، وأظهرنا أننا نتفوق بفارق كبير على عدة استراتيجيات حديثة متقدمة لاسترجاع متعدد الأوجه في صور الطعام ووصفات الطهي.