HyperAIHyperAI
منذ 18 أيام

MemCap: تذكّر المعرفة الأسلوبية لوصف الصور

{Xiaoxun Zhang, Xinxiao wu, Wentian Zhao}
الملخص

إن إنشاء عناوين مُصاغة بأسلوب معين للصور يُعد مهمة صعبة، نظرًا لضرورة وصف محتوى الصورة بدقة، إلى جانب التعبير عن الأسلوب اللغوي المطلوب بشكل مناسب. في هذه الورقة، نقترح منهجية جديدة تُسمى MemCap، وهي منهجية لكتابة عناوين صور بأسلوب مُصاغ، تعتمد على تشفير معرفة دقيقة حول الأساليب اللغوية باستخدام آلية الذاكرة. بدلًا من الاعتماد بشكل كبير على نموذج لغوي لالتقاط عوامل الأسلوب في الطرق الحالية، يعتمد منهجنا على تذكّر العناصر المُصاغة التي تم تعلّمها من مجموعة التدريب. وتحديدًا، قمنا بتصميم وحدة ذاكرة تتضمّن مجموعة من المتجهات المُشفرة لتمثيل العبارات المرتبطة بالأسلوب في مجموعة التدريب. وللحصول على العبارات المرتبطة بالأسلوب، طوّرنا خوارزمية فك الجملة، والتي تقوم بتفكيك الجملة المُصاغة إلى جزأين: جزء مرتبط بالأسلوب يعكس الأسلوب اللغوي، وجزء مرتبط بالمحتوى يحتوي على المحتوى البصري. عند إنشاء العناوين، تقوم MemCap أولًا باستخراج المعرفة المتعلقة بالأسلوب ذات الصلة بالمحتوى من وحدة الذاكرة عبر آلية الانتباه، ثم تدمج هذه المعرفة المستخرجة داخل نموذج لغوي. وقد أظهرت التجارب الواسعة على مجموعتي بيانات لكتابة عناوين صور بأسلوب مُصاغ (SentiCap وFlickrStyle10K) فعالية منهجنا.