HyperAIHyperAI
منذ 15 أيام

الاسترجاع والتركيب عبر الوسائط (X-MRS): إغلاق الفجوة الوسائطية في تعلم التمثيل المشترك

Ricardo Guerrero, Hai Xuan Pham, Vladimir Pavlovic
الاسترجاع والتركيب عبر الوسائط (X-MRS): إغلاق الفجوة الوسائطية في تعلم التمثيل المشترك
الملخص

تحليل الطعام الحاسوبي (CFA) يتطلب بطبيعته أدلة متعددة الأنواع لطعام معين، مثل الصور ونصوص الوصفات، إلخ. يكمن العنصر الأساسي في إمكانية إجراء تحليل الطعام الحاسوبي في التعلم المشترك للتمثيل متعدد الوسائط، والذي يهدف إلى إنشاء تمثيل مشترك للعديد من وجهات النظر (النص والصورة) للبيانات. في هذا العمل، نقترح طريقة لتعلم التمثيل المشترك عبر الوسائط في مجال الطعام، مع الحفاظ على الغنى الدلالي الكبير الموجود في بيانات الطعام. تعتمد الطريقة المقترحة على مُشَكِّل وصفات متعدد اللغات مبني على مُحَوِّل (Transformer) فعّال، مدمجًا مع بنية تقليدية لتمثيل الصور (image embedding). هنا، نقترح استخدام ترجمات متعددة اللغات غير مثالية كوسيلة فعّالة لتنظيم النموذج، في الوقت الذي يُضفي فيه دالة إضافية عبر لغات متعددة ونُظُم كتابية مختلفة. تُظهر التحليلات التجريبية على مجموعة بيانات الوصفات المفتوحة (Recipe1M) أن التمثيل المُتعلم باستخدام الطريقة المقترحة يتفوق بشكل كبير على أحدث النماذج الحالية (SOTA) في مهام الاسترجاع. علاوةً على ذلك، تُظهر نموذجًا توليدياً لتركيب صور الطعام، يُشَكِّل بناءً على تمثيلات الوصفات، القوة التمثيلية للتمثيل المُتعلم. حيث يمكن للصور المُولَّدة أن تُعيد إنتاج المظهر البصري للعينات المرتبطة بدقة، مما يشير إلى أن التمثيل المُتعلم يلتقط الدلالات المشتركة بين النصوص الوصفية ومحتوى الصور البصرية، وبالتالي يقلل من الفجوة بين الوسائط.

الاسترجاع والتركيب عبر الوسائط (X-MRS): إغلاق الفجوة الوسائطية في تعلم التمثيل المشترك | أحدث الأوراق البحثية | HyperAI