HyperAIHyperAI
منذ 2 أشهر

MAttNet: شبكة الانتباه الموديولية لفهم التعبيرات الإشارية

Yu, Licheng ; Lin, Zhe ; Shen, Xiaohui ; Yang, Jimei ; Lu, Xin ; Bansal, Mohit ; Berg, Tamara L.
MAttNet: شبكة الانتباه الموديولية لفهم التعبيرات الإشارية
الملخص

في هذا البحث، نتناول فهم التعبيرات الإشارية: تحديد منطقة صورة موصوفة بعبارة لغوية طبيعية. بينما يتعامل معظم العمل الحديث مع التعبيرات كوحدة واحدة، نقترح تفكيكها إلى ثلاثة مكونات وحدوية مرتبطة بمظهر الموضوع، وموقعه، وعلاقته بالأشياء الأخرى. هذا يسمح لنا بالتكيف المرن مع التعبيرات التي تحتوي على أنواع مختلفة من المعلومات في إطار عمل شامل (end-to-end). في نموذجنا، الذي نطلق عليه اسم شبكة الانتباه الوحدوية (Modular Attention Network - MAttNet)، يتم استخدام نوعين من الانتباه: انتباه قائم على اللغة يتعلم أوزان الوحدات وكذلك الانتباه لكلمة أو عبارة يجب أن تركز عليها كل وحدة؛ وانتباه بصري يسمح للوحدتين المتعلقتين بالموضوع والعلاقة بالتركيز على المكونات الصورية ذات الصلة. يتم دمج أوزان الوحدات بشكل ديناميكي لتوليد درجة إجمالية. تظهر التجارب أن MAttNet يتفوق على الأساليب السابقة الرائدة بمقدار كبير في مهمتي الفهم على مستوى الصندوق الحدودي وعلى مستوى البكسل. تم توفير العرض التوضيحي والكود.

MAttNet: شبكة الانتباه الموديولية لفهم التعبيرات الإشارية | أحدث الأوراق البحثية | HyperAI