LSTM للرسوم البيانية الديناميكية الزمنية للكشف عن الأشياء في الفيديو بقيادة الحركات

في هذه الورقة، نقوم بدراسة إطار عمل للكشف عن الأشياء تحت إشراف ضعيف. تركز معظم الإطارات العمل الحالية على استخدام الصور الثابتة لتعلم مكتشفات الأشياء. ومع ذلك، غالباً ما تفشل هذه المكتشفات في التعميم إلى مقاطع الفيديو بسبب الانحراف النمطي القائم. لذلك، ندرس تعلم هذه المكتشفات مباشرة من مقاطع الفيديو الروتينية لأنشطة الحياة اليومية. بدلاً من استخدام الصناديق الحدودية، نستكشف استخدام وصف الأنشطة كإشراف لأنه يسهل جمعه نسبياً. ومع ذلك، فإن مشكلة شائعة هي أن الأشياء ذات الاهتمام التي لا تكون مشاركة في أنشطة البشر غالباً ما تكون غائبة في الوصف العام للأنشطة المعروفة بـ "العلامات المفقودة" (missing label). لمعالجة هذه المشكلة، نقترح شبكة ذاكرة طويلة قصيرة الأمد الديناميكية الزمنية الرسم البياني (TD-Graph LSTM) الجديدة. تمكن شبكة TD-Graph LSTM من الاستدلال الزمني العالمي من خلال بناء رسم بياني ديناميكي يعتمد على الارتباطات الزمنية لاقتراحات الأشياء ويغطي الفيديو بأكمله. وبالتالي يمكن تخفيف مشكلة العلامات المفقودة لكل إطار بشكل كبير من خلال نقل المعرفة عبر اقتراحات الأشياء المرتبطة في الفيديو بأكمله. تظهر التقييمات الشاملة على مجموعة بيانات كبيرة لأنشطة الحياة اليومية (أي Charades) أفضلية الطريقة المقترحة لدينا. كما قمنا بإصدار شروح حدود الأشياء لأكثر من 5,000 إطار في مجموعة بيانات Charades. نعتقد أن البيانات المشروحة يمكن أن تستفيد منها أبحاث أخرى مستقبلية حول التعرف على الأشياء في مقاطع الفيديو.