HyperAIHyperAI
منذ 11 أيام

شبكة فك التشفير المتعدد المعاني للكشف القوي عن التفاعل البشري-الكائن

Xubin Zhong, Changxing Ding, Xian Qu, Dacheng Tao
شبكة فك التشفير المتعدد المعاني للكشف القوي عن التفاعل البشري-الكائن
الملخص

كشف التفاعل بين الإنسان والجسم (HOI) يُعدّ مهمًا جدًا في مهام فهم المشاهد ذات الطابع البشري. تميل الدراسات الحالية إلى افتراض أن نفس الفعل (verb) يمتلك خصائص بصرية مشابهة في فئات HOI المختلفة، وهو نهج يتجاهل المعاني الدلالية المتنوعة التي يمكن أن يحملها الفعل نفسه. ولحل هذه المشكلة، نقترح في هذا البحث شبكة جديدة تُدعى "شبكة فك تعدد المعاني" (PD-Net)، التي تُفكك التعدد الدلالي للأفعال في سياق كشف التفاعل بين الإنسان والجسم من خلال ثلاث طرق متميزة. أولاً، نُحسّن سمات التفاعل بين الإنسان والجسم لتكون واعية بتعدد المعاني من خلال استخدام وحدتين جديدتين: ألا وهما "الانتباه القناتي الموجه بالسياق اللغوي" (LPCA) و"تعزيز السمات المستند إلى السياق اللغوي" (LPFA). حيث يُبرز LPCA العناصر المهمة في سمات مظهر الإنسان والجسم لكل فئة من فئات HOI التي يتم التعرف عليها؛ كما يُعزز LPFA سمات وضعية الإنسان والمساحة باستخدام معلومات سياقية لغوية، مما يمكّن تصنيفات الأفعال من تلقي إشارات لغوية تقلل من التباين الداخلي للفعل نفسه في الفئة الواحدة. ثانيًا، نُقدّم وحدة جديدة تُسمى "دمج الوسائط الواعية بتعدد المعاني" (PAMF)، التي توجه PD-Net لاتخاذ قرارات بناءً على أنواع السمات التي يُنظر إليها على أنها أكثر أهمية وفقًا للسياق اللغوي. ثالثًا، نقترح تخفيف مشكلة تعدد معاني الأفعال من خلال مشاركة تصنيفات الأفعال بين فئات HOI ذات معاني دلالية مشابهة. بالإضافة إلى ذلك، ولتسريع البحث في مشكلة تعدد معاني الأفعال، قمنا ببناء مجموعة بيانات معيارية جديدة تُدعى "HOI-VerbPolysemy" (HOIVP)، التي تتضمن أفعالًا شائعة (أو أفعالًا محددة) تمتلك معاني دلالية متنوعة في العالم الحقيقي. وأخيرًا، وباستخدام تحليل التعدد الدلالي البصري للأفعال، أظهرت طريقة البحث المطروحة تفوقًا ملحوظًا على أحدث الأساليب في مجموعة بيانات HICO-DET وV-COCO وHOI-VP. يمكن الاطلاع على الشفرة والبيانات الخاصة بهذا البحث عبر الرابط: https://github.com/MuchHair/PD-Net.

شبكة فك التشفير المتعدد المعاني للكشف القوي عن التفاعل البشري-الكائن | أحدث الأوراق البحثية | HyperAI