نمذجة العلاقات في التعبيرات الإشارية باستخدام الشبكات الوحدوية التركيبية

يُشير الأشخاص غالبًا إلى الكيانات في الصورة من خلال علاقاتها مع كيانات أخرى. على سبيل المثال، "القط الأسود الجاثم تحت الطاولة" يشير إلى كيان "قط أسود" وعلاقته بكيان آخر وهو "طاولة". ففهم هذه العلاقات ضروري لتأويل وتثبيت مثل هذه التعبيرات اللغوية الطبيعية. تركز معظم الدراسات السابقة إما على تثبيت التعبيرات الإشارية بأكملها بطريقة شاملة إلى منطقة واحدة، أو على تحديد العلاقات استنادًا إلى مجموعة ثابتة من الفئات. في هذا البحث، نقدم بدلاً من ذلك هندسة عميقة مكونة من وحدات قابلة للتركيب قادرة على تحليل التعبيرات الإشارية إلى أجزائها المكونة، ومعرفة الكيانات والعلاقات المذكورة في التعبير الإدخالي وتثبيتها جميعًا في المشهد. نطلق على هذا النهج شبكات الوحدات القابلة للتركيب (Compositional Modular Networks - CMNs): وهي هندسة جديدة تتعلم التحليل اللغوي والاستدلال البصري بشكل متكامل من البداية حتى النهاية. يتم بناء نهجنا حول نوعين من الوحدات العصبية التي تفحص المناطق المحلية والتفاعلات الثنائية بين المناطق. نقيم شبكات الوحدات القابلة للتركيب (CMNs) على عدة مجموعات بيانات للتعبيرات الإشارية، حيث نتفوق على أفضل الأساليب الحالية في جميع المهام.