HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم الرسوم البيانية المكانية-الزمنية طويلة الأجل لاكتشاف المتحدث النشط

Min Kyle ; Roy Sourya ; Tripathi Subarna ; Guha Tanaya ; Majumdar Somdeb

الملخص

اكتشاف المتحدث النشط (ASD) في مقاطع الفيديو التي تحتوي على عدة متحدثين هو مهمة صعبة، حيث يتطلب تعلم الخصائص السمعية والبصرية الفعالة والارتباطات المكانية-الزمانية عبر نوافذ زمنية طويلة. في هذا البحث، نقدم SPELL، وهو إطار جديد لتعلم الرسم البياني المكاني-الزماني يمكنه حل مهام معقدة مثل ASD. لهذه الغاية، يتم أولاً ترميز كل شخص في إطار الفيديو كعقدة فريدة لهذا الإطار. يتم ربط العقد المرتبطة بشخص واحد عبر الإطارات لترميز الديناميكيات الزمنية الخاصة بهم. كما يتم ربط العقد داخل الإطار الواحد لترميز العلاقات بين الأشخاص. وبذلك، يقلل SPELL من اكتشاف المتحدث النشط إلى مهمة تصنيف العقد. من المهم أن SPELL قادر على الاستدلال في سياقات زمنية طويلة لكل العقد دون الاعتماد على الشبكات العصبية الرسومية المتصلة بالكامل والتي تتطلب حسابات باهظة الثمن. من خلال التجارب الواسعة على مجموعة بيانات AVA-ActiveSpeaker، نثبت أن تعلم التمثيلات الرسومية يمكن أن يحسن بشكل كبير أداء اكتشاف المتحدث النشط بفضل هيكلها المكاني والزماني الصريح. يتفوق SPELL على جميع الأساليب السابقة ذات المستوى الأول بينما يحتاج إلى موارد ذاكرة وحسابية أقل بكثير. شفرتنا المصدر متاحة للجمهور على الرابط: https://github.com/SRA2/SPELL


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp