HyperAIHyperAI
منذ 3 أشهر

VICTR: تمثيل نصي مُلتَقَطٌ بالمعلومات البصرية لمهام متعددة الوسائط من النص إلى الصورة

Soyeon Caren Han, Siqu Long, Siwen Luo, Kunze Wang, Josiah Poon
VICTR: تمثيل نصي مُلتَقَطٌ بالمعلومات البصرية لمهام متعددة الوسائط من النص إلى الصورة
الملخص

المهام متعددة الوسائط من النص إلى الصورة، التي تُولِّد أو تسترجع صورة بناءً على وصف نصي معطى، تمثل مهامًا صعبة جدًا، نظرًا لأن الوصف النصي الخام يحتوي على معلومات محدودة جدًا لوصف الصور الواقعية بصريًا بشكل كامل. نقترح تمثيلًا بصريًا سياقيًا جديدًا للنص في المهام متعددة الوسائط من النص إلى الصورة، يُسمى VICTR، والذي يُمكّن من التقاط معلومات دلالية بصرية غنية حول الكائنات من المدخل النصي. أولاً، نستخدم الوصف النصي كمدخل أولي، ونُنفِّذ تحليل الاعتماد النحوي لاستخراج البنية النحوية وتحليل الجوانب الدلالية، بما في ذلك كميات الكائنات، بهدف استخراج رسم المُشهد (Scene Graph). ثم، نُدرّب الكائنات، والخصائص، والعلاقات المُستخرجة في رسم المُشهد، بالإضافة إلى معلومات العلاقة الهندسية المرتبطة بها، باستخدام شبكات الت(Convolutional Networks)، مما يؤدي إلى إنتاج تمثيل نصي يدمج بين المعلومات الدلالية النصية والبصرية. ويتم بعد ذلك دمج هذا التمثيل النصي مع تمثيلات مستوى الكلمة ومستوى الجملة لإنشاء تمثيلات كلمات وجمل ذات سياق بصري. وبالنسبة للتقييم، قمنا بدمج VICTR مع النماذج الرائدة حاليًا في إنشاء الصور من النص. ويُعد VICTR سهل التكامل مع النماذج الحالية، ويُحسّن الأداء من حيث الجوانب الكمية والكيفية معًا.