Command Palette
Search for a command to run...
مساحة التضمين الدلالي للاعتراف بالأفعال دون الحاجة إلى تدريب مسبق
مساحة التضمين الدلالي للاعتراف بالأفعال دون الحاجة إلى تدريب مسبق
Xun Xu Timothy Hospedales Shaogang Gong
الملخص
يتنامى عدد الفئات المستخدمة في التعرف على الأفعال بسرعة كبيرة. ولذلك، أصبح من الصعب بشكل متزايد جمع بيانات تدريبية كافية لتعلم النماذج التقليدية لكل فئة. يمكن تخفيف هذه المشكلة من خلال نموذج التعلم بدون أمثلة "التعلم بدون أمثلة" (Zero-Shot Learning - ZSL)، الذي يكتسب شعبية متزايدة. في هذا الإطار، يتم بناء ربط بين الخصائص البصرية ووصف دلالي قابل للتفهم البشري لكل فئة، مما يسمح بالتعرف على الفئات في غياب أي بيانات تدريبية. تركز الدراسات الحالية حول التعلم بدون أمثلة بشكل أساسي على بيانات الصور والتمثيلات الدلالية القائمة على السمات. في هذا البحث، نتناول مشكلة التعرف بدون أمثلة في مهام التعرف على الأفعال المعاصرة في مقاطع الفيديو، باستخدام فضاء المتجهات الكلامية الدلالية كمساحة مشتركة لدمج مقاطع الفيديو وعلامات الفئات. وهذا أكثر تحديًا لأن الربط بين المساحة الدلالية والخصائص الزمانية-المكانية لمقاطع الفيديو التي تحتوي على أفعال معقدة هو أكثر تعقيدًا ويصعب تعلمه. نوضح أن استراتيجية بسيطة للتدريب الذاتي وزيادة البيانات يمكن أن تحسن بشكل كبير فعالية هذا الربط. أظهرت التجارب التي أجريت على مجموعات بيانات الأفعال البشرية مثل HMDB51 وUCF101 أن نهجنا يحقق أفضل أداء حاليًا في مجال التعرف على الأفعال بدون أمثلة.