HyperAIHyperAI
منذ 2 أشهر

CoHD: إطار فك تشفير هرمي واعٍ للعد لتقسيم التعبيرات الإشارية العامة

Luo, Zhuoyan ; Wu, Yinghao ; Cheng, Tianheng ; Liu, Yong ; Xiao, Yicheng ; Wang, Hongfa ; Zhang, Xiao-Ping ; Yang, Yujiu
CoHD: إطار فك تشفير هرمي واعٍ للعد لتقسيم التعبيرات الإشارية العامة
الملخص

الصيغة المقترحة حديثًا لتقسيم التعبيرات المرجعية العامة (GRES) تضخم صياغة RES الكلاسيكية من خلال إشراك سيناريوهات معقدة متعددة وغير مستهدفة. وتعالج الطرق الحديثة GRES مباشرة من خلال توسيع الإطارات المُعتمَدَة جيدًا لـ RES بتحديد وجود الأشياء. ومع ذلك، فإن هذه الطرق تميل إلى ترميز معلومات الأشياء المتعددة الدقة في تمثيل واحد، مما يجعل من الصعب تمثيل الأشياء الشاملة بدقة ومختلفة الدقة. بالإضافة إلى ذلك، فإن تحديد وجود الأشياء بطريقة ثنائية بسيطة عبر جميع السيناريوهات المرجعية يفشل في تحديد الاختلافات الجوهرية بينها، مما يؤدي إلى الغموض في فهم الأشياء.لحل المشكلات المذكورة أعلاه، نقترح إطار عمل \textbf{Co}unting-\textbf{A}ware \textbf{H}ierarchical \textbf{D}ecoding (CoHD) لـ GRES. من خلال فصل المعاني المرجعية المعقدة إلى دقة مختلفة باستخدام هرم بصري-لغوي، وجمعها بشكل ديناميكي بواسطة الاختيار البيني والداخلي، يعزز CoHD الفهم المتعدد الدقة مع الاستفادة المتبادلة للطبيعة الهرمية. علاوة على ذلك، ندمج قدرة العد عن طريق تضمين السيناريوهات المتعددة/المفردة/غير المستهدفة في الرقابة على مستوى العد وعلى مستوى الفئة، مما يسهل الإدراك الشامل للأجسام.تظهر النتائج التجريبية على مقاييس gRefCOCO وRef-ZOM وR-RefCOCO وRefCOCO فعالية وعقلانية CoHD، حيث يتفوق على أفضل الطرق الحالية لـ GRES بمعدل ملحوظ. يمكن الحصول على الكود من \href{https://github.com/RobertLuo1/CoHD}{هنا}.

CoHD: إطار فك تشفير هرمي واعٍ للعد لتقسيم التعبيرات الإشارية العامة | أحدث الأوراق البحثية | HyperAI