HyperAIHyperAI

Command Palette

Search for a command to run...

VICTR: تمثيل نصي مُلتَقَطٌ بالمعلومات البصرية لمهام متعددة الوسائط من النص إلى الصورة

Soyeon Caren Han Siqu Long Siwen Luo Kunze Wang Josiah Poon

الملخص

المهام متعددة الوسائط من النص إلى الصورة، التي تُولِّد أو تسترجع صورة بناءً على وصف نصي معطى، تمثل مهامًا صعبة جدًا، نظرًا لأن الوصف النصي الخام يحتوي على معلومات محدودة جدًا لوصف الصور الواقعية بصريًا بشكل كامل. نقترح تمثيلًا بصريًا سياقيًا جديدًا للنص في المهام متعددة الوسائط من النص إلى الصورة، يُسمى VICTR، والذي يُمكّن من التقاط معلومات دلالية بصرية غنية حول الكائنات من المدخل النصي. أولاً، نستخدم الوصف النصي كمدخل أولي، ونُنفِّذ تحليل الاعتماد النحوي لاستخراج البنية النحوية وتحليل الجوانب الدلالية، بما في ذلك كميات الكائنات، بهدف استخراج رسم المُشهد (Scene Graph). ثم، نُدرّب الكائنات، والخصائص، والعلاقات المُستخرجة في رسم المُشهد، بالإضافة إلى معلومات العلاقة الهندسية المرتبطة بها، باستخدام شبكات الت(Convolutional Networks)، مما يؤدي إلى إنتاج تمثيل نصي يدمج بين المعلومات الدلالية النصية والبصرية. ويتم بعد ذلك دمج هذا التمثيل النصي مع تمثيلات مستوى الكلمة ومستوى الجملة لإنشاء تمثيلات كلمات وجمل ذات سياق بصري. وبالنسبة للتقييم، قمنا بدمج VICTR مع النماذج الرائدة حاليًا في إنشاء الصور من النص. ويُعد VICTR سهل التكامل مع النماذج الحالية، ويُحسّن الأداء من حيث الجوانب الكمية والكيفية معًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp