تعلم الرسوم البيانية المكانية-الزمنية طويلة الأجل لاكتشاف المتحدث النشط

اكتشاف المتحدث النشط (ASD) في مقاطع الفيديو التي تحتوي على عدة متحدثين هو مهمة صعبة، حيث يتطلب تعلم الخصائص السمعية والبصرية الفعالة والارتباطات المكانية-الزمانية عبر نوافذ زمنية طويلة. في هذا البحث، نقدم SPELL، وهو إطار جديد لتعلم الرسم البياني المكاني-الزماني يمكنه حل مهام معقدة مثل ASD. لهذه الغاية، يتم أولاً ترميز كل شخص في إطار الفيديو كعقدة فريدة لهذا الإطار. يتم ربط العقد المرتبطة بشخص واحد عبر الإطارات لترميز الديناميكيات الزمنية الخاصة بهم. كما يتم ربط العقد داخل الإطار الواحد لترميز العلاقات بين الأشخاص. وبذلك، يقلل SPELL من اكتشاف المتحدث النشط إلى مهمة تصنيف العقد. من المهم أن SPELL قادر على الاستدلال في سياقات زمنية طويلة لكل العقد دون الاعتماد على الشبكات العصبية الرسومية المتصلة بالكامل والتي تتطلب حسابات باهظة الثمن. من خلال التجارب الواسعة على مجموعة بيانات AVA-ActiveSpeaker، نثبت أن تعلم التمثيلات الرسومية يمكن أن يحسن بشكل كبير أداء اكتشاف المتحدث النشط بفضل هيكلها المكاني والزماني الصريح. يتفوق SPELL على جميع الأساليب السابقة ذات المستوى الأول بينما يحتاج إلى موارد ذاكرة وحسابية أقل بكثير. شفرتنا المصدر متاحة للجمهور على الرابط: https://github.com/SRA2/SPELL