HyperAIHyperAI
منذ 2 أشهر

التصنيف الكثيف للعلاقات: شبكات ثلاثية التدفق للتعليق القائم على العلاقات

Dong-Jin Kim; Jinsoo Choi; Tae-Hyun Oh; In So Kweon
التصنيف الكثيف للعلاقات: شبكات ثلاثية التدفق للتعليق القائم على العلاقات
الملخص

هدفنا في هذا العمل هو تدريب نموذج لوصف الصور يولد وصفًا أكثر كثافة ومعلوماتية. نقدم "الوصف العلائقي" (Relational Captioning)، وهو مهمة جديدة في وصف الصور تهدف إلى إنشاء عدة وصفات بناءً على المعلومات العلائقية بين الأشياء في الصورة. يعتبر الإطار العلائقي متميزًا من حيث التنوع وكمية المعلومات، مما يؤدي إلى فهم الصورة استنادًا إلى العلاقات. يمكن تعيين علامات جزء الكلام (POS، أي فئات الموضوع-المفعول-الفعل) لكل كلمة باللغة الإنجليزية. نستفيد من جزء الكلام كسابقة لإرشاد الترتيب الصحيح للكلمات في الوصف. لهذا الغرض، نقترح شبكة ثلاثية متعددة المهام (MTTSNet) تتكون من ثلاث وحدات متكررة لكل جزء من أجزاء الكلام وتقوم بتنبؤ جزء الكلام والوصف بشكل مشترك. نوضح تمثيلات أكثر تنوعًا وأغنى تُنتجها النموذج المقترح مقارنة بعدة أسس ومناهج منافسة.

التصنيف الكثيف للعلاقات: شبكات ثلاثية التدفق للتعليق القائم على العلاقات | أحدث الأوراق البحثية | HyperAI