HyperAIHyperAI
منذ 2 أشهر

التعلم التعزيزي المُعَمَّق ذي الهيكل المتغير للكشف عن العلاقات البصرية والسمات

Xiaodan Liang; Lisa Lee; Eric P. Xing
التعلم التعزيزي المُعَمَّق ذي الهيكل المتغير للكشف عن العلاقات البصرية والسمات
الملخص

رغم التقدم في مهام الإدراك البصري مثل تصنيف الصور واكتشافها، لا تزال الحواسيب تواجه صعوبة في فهم الترابط بين الأشياء في المشهد ككل، مثل العلاقات بين الأشياء أو صفاتها. غالباً ما تتجاهل الطرق الحالية المؤشرات السياقية العالمية التي تعكس التفاعلات بين حالات الأشياء المختلفة، ويمكنها فقط التعرف على عدد قليل من الأنواع من خلال تدريب كاشفات فردية لكل العلاقات الممكنة بشكل شامل. لالتقاط هذا الترابط العالمي، نقترح إطارًا عميقًا يعتمد على التعلم التعزيزي ذي الهيكل المتغير (VRL) لاكتشاف علاقات الأشياء وصفاتها بشكل متتابع في الصورة بأكملها. أولاً، يتم بناء رسم بياني موجه للأفعال الدلالية باستخدام الأولويات اللغوية لتوفير تمثيل غني ومكثف للارتباطات الدلالية بين فئات الأشياء والمرتبطات والصفات. ثانياً، نستخدم جولة ذات هيكل متغير عبر الرسم البياني للأفعال لبناء مجموعة أفعال صغيرة ومتكيفة لكل خطوة بناءً على الحالة الحالية والأفعال التاريخية. بصفة خاصة، يتم استخدام نظام استخراج الأشياء الواعي بالغموض لحل الغموض الدلالي بين فئات الأشياء التي يفشل الكاشف فيها في التمييز. ثم نقوم بالتنبؤ المتتابع باستخدام إطار التعلم التعزيزي العميق (RL)، مع إدخال مؤشرات السياق العالمي والتمثيلات الدلالية للعبارات المستخرجة سابقًا في المتجه الحالة. تثبت التجارب التي أجريناها على مجموعة بيانات اكتشاف العلاقة البصرية (VRD) وعلى مجموعة البيانات البصرية الكبيرة المقياس "Visual Genome" تفوق VRL، والتي يمكن أن تحقق نتائج اكتشاف أفضل بكثير على مجموعات البيانات التي تتضمن آلاف أنواع العلاقات والصفات. كما نوضح أن VRL قادر على التنبؤ بأنواع غير مرئية مضمنة في رسمنا البياني للأفعال من خلال تعلم الارتباطات على العقد المشتركة في الرسم البياني.

التعلم التعزيزي المُعَمَّق ذي الهيكل المتغير للكشف عن العلاقات البصرية والسمات | أحدث الأوراق البحثية | HyperAI