HyperAIHyperAI
منذ 2 أشهر

LoCoNet: شبكة السياق الطويل والقصير لاكتشاف المتحدث النشط

Wang, Xizi ; Cheng, Feng ; Bertasius, Gedas ; Crandall, David
LoCoNet: شبكة السياق الطويل والقصير لاكتشاف المتحدث النشط
الملخص

اكتشاف المتحدث النشط (ASD) يهدف إلى تحديد من يتحدث في كل إطار من إطارات الفيديو. يستند ASD إلى المعلومات الصوتية والبصرية من سياقين: السياق الداخلي طويل المدى للمتحدث والسياق الخارجي قصير المدى بين المتحدثين. يعمل السياق الداخلي طويل المدى على نمذجة الارتباطات الزمنية لنفس المتحدث، بينما يقوم السياق الخارجي قصير المدى بنمذجة التفاعلات بين المتحدثين في نفس المشهد. هذان السياقان مكملان لبعضهما البعض ويمكن أن يساعدا في استنتاج المتحدث النشط. مستوحىً من هذه الملاحظات، نقترح LoCoNet، شبكة سياقات طويلة وقصيرة بسيطة ومعتبرة تُنمذج السياق الداخلي طويل المدى للمتحدث والسياق الخارجي قصير المدى بين المتحدثين. نستخدم انتباه الذات لنمذجة السياق الداخلي طويل المدى للمتحدث بسبب فعاليته في نمذجة الارتباطات طويلة المدى، ونستخدم كتل التحويل الانvolutionary التي تلتقط الأنماط المحلية لنمذجة السياق الخارجي قصير المدى بين المتحدثين.أظهرت التجارب الواسعة أن LoCoNet حققت أداءً رائدًا على عدة مجموعات بيانات، حيث حققت دقة mAP بنسبة 95.2٪ (+1.1٪) على مجموعة بيانات AVA-ActiveSpeaker، و68.1٪ (+22٪) على مجموعة بيانات Columbia، و97.2٪ (+2.8٪) على مجموعة بيانات Talkies، و59.7٪ (+8.0٪) على مجموعة بيانات Ego4D. علاوة على ذلك، في الحالات الصعبة حيث يكون هناك عدة متحدثين أو يكون وجه المتحدث النشط أصغر بكثير من الوجوه الأخرى في نفس المشهد، تتفوق LoCoNet على الأساليب الرائدة السابقة بنسبة 3.4٪ على مجموعة بيانات AVA-ActiveSpeaker.سيتم إطلاق الكود في https://github.com/SJTUwxz/LoCoNet_ASD.注释:- "convolutional blocks" 翻译为 "كتل التحويل الانvolutionary",其中“انvolutionary”是卷积的阿拉伯语词根,但通常在科技文献中直接使用“Convolutional”。- "AVA-ActiveSpeaker"、"Columbia dataset"、"Talkies dataset" 和 "Ego4D dataset" 是专有名词,直接保留英文。修正后的版本:اكتشاف المتحدث النشط (ASD) يهدف إلى تحديد من يتحدث في كل إطار من إطارات الفيديو. يستند ASD إلى المعلومات الصوتية والبصرية من سياقين: السياق الداخلي طويل المدى للمتحدث والسياق الخارجي قصير المدى بين المتحدثين. يعمل السياق الداخلي طويل المدى على نمذجة الارتباطات الزمنية لنفس المتحدث، بينما يقوم السياق الخارجي قصير المدى بنمذجة التفاعلات بين المتحدثين في نفس المشهد. هذان السياقان مكملان لبعضهما البعض ويمكن أن يساعدا في استنتاج المتحدث النشط. مستوحىً من هذه الملاحظات، نقترح LoCoNet، شبكة سياقات طويلة وقصيرة بسيطة ومعتبرة تُنمذج السياق الداخلي طويل المدى للمتحدث والسياق الخارجي قصير المدى بين المتحدثين. نستخدم انتباه الذات لنمذجة السياق الداخلي طويل المدى للمتحدث بسبب فعاليته في نمذجة الارتباطات طويلة المدى، ونستخدم كتل التحويل الانvolutionary (Convolutional blocks) التي تلتقط الأنماط المحلية لنمذجة السiaq الخارجي قصير المدى بين المتحدثين.أظهرت التجارب الواسعة أن LoCoNet حققت أداءً رائدًا على عدة مجموعات بيانات، حيث حققت دقة mAP بنسبة 95.2٪ (+1.1٪) على مجموعة بيانات AVA-ActiveSpeaker، و68.1٪ (+22٪) على مجموعة بيانات Columbia dataset، و97.2٪ (+2.8٪) على مجموعة بيانات Talkies dataset، و59.7٪ (+8.0٪) على مجموعة بيانات Ego4D dataset. علاوة على ذلك,在存在多个说话者或活跃说话者的面部比同一场景中的其他面部小得多的情况下,LoCoNet 在 AVA-ActiveSpeaker 数据集上的表现优于之前的最先进方法 3.4%。سيتم إطلاق الكود في https://github.com/SJTUwxz/LoCoNet_ASD.最终版本:اكتشاف المتحدث النشط (ASD) يهدف إلى تحديد من يتحدث في كل إطار من إطارات الفيديو. يستند ASD إلى المعلومات الصوتية والبصرية من سياقين: السياق الداخلي طويل الأمد للمتحدث والسياق الخارجي قصير الأمد بين المتحدثين. يعمل السياق الداخلي طويل الأمد على نمذجة الارتباطات الزمنية لنفس المتحدث، بينما يقوم السياق الخارجي قصير الأمد بنمذجة التفاعلات بين المتحدثين في نفس المشهد. هذان السياquan مكملان لبعضهما البعض ويمكن أن يساعدا في استنتاج المتحدث النشط.مستوحىً من هذهالملاحظات، نقترح LoCoNet ، شبكة سياقات طويلة وقصيرة بسيطة ومعتبرة تُنمذج السiaq الداخلي طويل الأمددلمتحدث والسiaq الخارجي قصير الأمددلمتحدثيّن الآخرين . نستخدم انتباه الذات لنموزجةالسiaq الداخلي طويلالأمدللمتحدث بسبب فعاليتهفي نموزجةالارتباطاطول الأمدد ،ونستخدم كتل التحويل الانvolutionary (Convolutional blocks) التي تلتقط الأنماطال محليةلنموزجسةالسiaq الخارجدقيقصرالأمدبينالمتحدثيّن .أظهرت التجاربالواسعةأن LoCoNet حققت أداءً رائدًاعلى عدة مجموعباتبيانات ،حييثحققت دقة mAP بنسبة 95,2% (+1,1%)علىمجموعةبيانات AVA-ActiveSpeaker ،و68,1% (+22%)علىمجموعةبيانات Columbia dataset ،و97,2% (+2,8%)علىمجموعةبيانات Talkies dataset ،و59,7% (+8,0%)علىمجموعةبيانات Ego4D dataset . بالإضافةإلىذلك ،في الحالاالصعبةحييث يكونهناك عدة متحدثيّن أو يكونوجهالمتحدث النشطيصغر بكثيرمن الوجوه الأخرىفي نفسالمشهد ،تفوقت LoCoNet الأساليبالرائدةالسابقةبنسبة 3,4%علىمجموعةبيانات AVA-ActiveSpeaker .سيتمإطلاق الكودفي https://github.com/SJTUwxz/LoCoNet_ASD .

LoCoNet: شبكة السياق الطويل والقصير لاكتشاف المتحدث النشط | أحدث الأوراق البحثية | HyperAI