HyperAIHyperAI
منذ 2 أشهر

التصنيف الكثيف للصور عبر شبكات متعددة المهام ومتعددة التدفقات

Dong-Jin Kim; Tae-Hyun Oh; Jinsoo Choi; In So Kweon
التصنيف الكثيف للصور عبر شبكات متعددة المهام ومتعددة التدفقات
الملخص

نقدم تسمية العلاقات الكثيفة، وهي مهمة جديدة في مجال وصف الصور تهدف إلى إنشاء العديد من العبارات الوصفية مع مراعاة المعلومات المتعلقة بالعلاقات بين الأشياء في المشهد البصري. توفر تسمية العلاقات وصفًا صريحًا لكل علاقة بين مجموعات الأشياء. يعتبر هذا الإطار متميزًا من حيث التنوع وكمية المعلومات، مما يؤدي إلى فهم شامل للصورة يستند إلى العلاقات، مثل إنشاء الاقتراحات العلائقية. لفهم العلاقات بين الأشياء، يمكن أن تكون تصنيفات أجزاء الكلام (POS؛ أي فئات الموضوع-الكائن-المبتد) معلومات أولية قيمة لتوجيه الترتيب السببي للكلمات في العبارة الوصفية. نفرض على إطارنا التعلم ليس فقط لإنشاء العبارات الوصفية ولكن أيضًا لفهم تصنيفات أجزاء الكلام لكل كلمة. لهذا الغرض، نقترح شبكة متعددة المهام ذات ثلاث مسارات (MTTSNet) تتكون من ثلاث وحدات متكررة مسؤولة عن كل تصنيف من أجزاء الكلام والتي يتم تدريبها على التنبؤ المشترك بالعبارات الوصفية الصحيحة وتوصيف الكلمات بفئاتها اللغوية. بالإضافة إلى ذلك، اكتشفنا أن أداء MTTSNet يمكن تحسينه عن طريق تعديل تمثيلات الأشياء باستخدام وحدة علاقات صريحة. نوضح أن النموذج المقترح يمكنه إنشاء عبارات وصفية أكثر تنوعًا وأغنى عبر تحليل تجريبي شامل على قواعد بيانات كبيرة ومتنوعة ومعايير مختلفة. بعد ذلك، نقدم تطبيقات لإطارنا في مجال وصف الصور الشامل وإنشاء الرسوم البيانية للمشهد والمهمات الاسترجاعية.

التصنيف الكثيف للصور عبر شبكات متعددة المهام ومتعددة التدفقات | أحدث الأوراق البحثية | HyperAI