HyperAIHyperAI
منذ 16 أيام

VLPD: كشف المشاة المعتمد على التوعية السياقية من خلال التعلم الذاتي الشامل للسياق البصري واللغوي

Mengyin Liu, Jie Jiang, Chao Zhu, Xu-Cheng Yin
VLPD: كشف المشاة المعتمد على التوعية السياقية من خلال التعلم الذاتي الشامل للسياق البصري واللغوي
الملخص

كشف المشاة بدقة في المشاهد الحضرية له أهمية كبيرة للتطبيقات الواقعية مثل القيادة الذاتية أو المراقبة عبر الفيديو. ومع ذلك، فإن الكائنات التي تشبه البشر غالبًا ما تؤدي إلى كشف خاطئ، كما أن المشاة الصغار أو المُغطّى أجزاء كبيرة من أجسامهم غالبًا ما يُفوَّت كشفهم بسبب مظهرهم غير المعتاد. لمعالجة هذه التحديات، يصبح من غير الكافي الاعتماد فقط على مناطق الكائنات، وبالتالي يصبح السؤال الأساسي هو كيفية الاستفادة الكاملة من سياقات أكثر وضوحًا ودلالية. وفي الوقت نفسه، غالبًا ما تتعلم النماذج السابقة المُتَوَقِّعة للسياق إما سياقات خفية باستخدام أدلة بصرية فقط، أو تتطلب تسميات يدوية مكثفة للحصول على سياقات صريحة ودلالية. ولذلك، نقترح في هذا البحث منهجية جديدة تعتمد على التعلم التلقائي المعتمد على الرؤية واللغة للكشف عن المشاة مع الوعي بالسياق (VLPD)، والتي تُمكّن من نمذجة السياقات الدلالية الصريحة دون الحاجة إلى أي تسميات إضافية. أولاً، نُقدّم طريقة تجزئة ذاتية الاعتماد على الرؤية واللغة (VLS)، والتي تتعلم كلاً من كشف المشاة بمساعدة مكتملة والتجزئة السياقية من خلال توليد تسميات صريحة دلالية تلقائيًا بواسطة نماذج الرؤية واللغة. علاوةً على ذلك، نقترح طريقة تعلم تبايني بروتوكولي ذاتي (PSC) لتحسين التمييز بين المشاة والفئات الأخرى، بناءً على سياقات أكثر وضوحًا ودلالية تم الحصول عليها من طريقة VLS. أظهرت التجارب الواسعة على معايير شهيرة أداءً متفوقًا على النماذج السابقة الأكثر تقدمًا، خصوصًا في الظروف الصعبة مثل الصغر في الحجم أو التغطية الشديدة. يمكن الوصول إلى الكود عبر الرابط: https://github.com/lmy98129/VLPD.

VLPD: كشف المشاة المعتمد على التوعية السياقية من خلال التعلم الذاتي الشامل للسياق البصري واللغوي | أحدث الأوراق البحثية | HyperAI