Command Palette
Search for a command to run...
التصنيف الكثيف للعلاقات: شبكات ثلاثية التدفق للتعليق القائم على العلاقات
التصنيف الكثيف للعلاقات: شبكات ثلاثية التدفق للتعليق القائم على العلاقات
Dong-Jin Kim Jinsoo Choi Tae-Hyun Oh In So Kweon
الملخص
هدفنا في هذا العمل هو تدريب نموذج لوصف الصور يولد وصفًا أكثر كثافة ومعلوماتية. نقدم "الوصف العلائقي" (Relational Captioning)، وهو مهمة جديدة في وصف الصور تهدف إلى إنشاء عدة وصفات بناءً على المعلومات العلائقية بين الأشياء في الصورة. يعتبر الإطار العلائقي متميزًا من حيث التنوع وكمية المعلومات، مما يؤدي إلى فهم الصورة استنادًا إلى العلاقات. يمكن تعيين علامات جزء الكلام (POS، أي فئات الموضوع-المفعول-الفعل) لكل كلمة باللغة الإنجليزية. نستفيد من جزء الكلام كسابقة لإرشاد الترتيب الصحيح للكلمات في الوصف. لهذا الغرض، نقترح شبكة ثلاثية متعددة المهام (MTTSNet) تتكون من ثلاث وحدات متكررة لكل جزء من أجزاء الكلام وتقوم بتنبؤ جزء الكلام والوصف بشكل مشترك. نوضح تمثيلات أكثر تنوعًا وأغنى تُنتجها النموذج المقترح مقارنة بعدة أسس ومناهج منافسة.