HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم التمثيلات متعددة الوسائط باستخدام الشبكات المعادية لوصفات الطبخ وصور الطعام

Wang Hao†,∗ Doyen Sahoo†,∗ Chenghao Liu† Ee-peng Lim† Steven C. H. Hoi†,‡

الملخص

الحساب الحاسوبي للطعام يلعب دورًا متزايد الأهمية في حياة الإنسان اليومية، وقد وجد تطبيقات عديدة في توجيه السلوك البشري نحو استهلاك ذكي للطعام ونمط حياة صحي. من بين المهام الهامة التي تندرج تحت مظلة الحساب الحاسوبي للطعام، هناك مهمة الاسترجاع، والتي تكون مفيدة بشكل خاص في التطبيقات المتعلقة بالصحة، حيث نهتم باسترجاع المعلومات الهامة عن الطعام (مثل المكونات والتغذية وما إلى ذلك). في هذا البحث، ندرس مهمة بحث متعددة الوسائط مفتوحة بين وصفات الطهي وصور الطعام، ونقترح إطارًا جديدًا يُسمى التضمين المتعدد الوسائط المعادي (Adversarial Cross-Modal Embedding - ACME) لحل مهمة الاسترجاع المتعدد الوسائط في مجالات الطعام. تحديدًا، الهدف هو تعلم فضاء خصائص مشترك بين الوسيلتين، حيث يتكون نهجنا من عدة أفكار جديدة: (i) التعلم باستخدام نظام خسارة ثلاثي جديد مع استراتيجية عينية فعالة، (ii) فرض التناسق بين الوسائط باستخدام استراتيجية التعلم المعادية، و(iii) فرض ثبات الترجمة المتعددة الوسائط بحيث يمكن للتضمين في إحدى الوسائط استعادة بعض المعلومات الهامة للمثيلات المقابلة في الوسيطة الأخرى. حقق ACME أداءً رائدًا على مجموعة البيانات المرجعية Recipe1M، مما يؤكد فعالية التقنية المقترحة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp