تم افتتاح أحدث ECCV في التاريخ، وهذه الأوراق مثيرة للاهتمام للغاية

عُقد مؤتمر ECCV 2020، أحد أهم ثلاثة مؤتمرات دولية في مجال الرؤية الحاسوبية، عبر الإنترنت في الفترة من 23 إلى 27 أغسطس. هذا العام، قبل مؤتمر ECCV ما مجموعه 1361 ورقة بحثية. لقد اخترنا 15 من أكثر الأوراق البحثية شعبية لنشاركها مع القراء.
ونتيجة لتأثير الوباء، انتقل مؤتمر ECCV 2020 لهذا العام، مثل المؤتمرات الكبرى الأخرى، من الوضع غير المتصل بالإنترنت إلى الوضع عبر الإنترنت وانطلق في 23 أغسطس.

ECCV، الاسم الكامل هو المؤتمر الأوروبي لرؤية الكمبيوتر (المؤتمر الأوروبي الدولي لرؤية الكمبيوتر)،وهو أحد المؤتمرات الدولية الثلاثة الرائدة في مجال رؤية الكمبيوتر (المؤتمران الآخران هما CVPR وICCV)، ويقام كل عامين.
على الرغم من أن وباء هذا العام قد عطل خطط العديد من الأشخاص، إلا أن حماس الجميع للبحث العلمي وتقديم الأوراق العلمية لا يزال قائما. وفقا للإحصائيات،تلقت ECCV 2020 ما مجموعه 5025 طلبًا صالحًا، وهو أكثر من ضعف عدد الطلبات المقدمة في الدورة السابقة (2018)، وبالتالي تعتبر "ECCV الأكثر سخونة في التاريخ".
وأخيراً، تم قبول 1361 ورقة بحثية للنشر، بمعدل قبول 27%.ومن بين الأوراق المقبولة، هناك 104 ورقة شفوية، تمثل 2% من إجمالي الأوراق الصالحة، و161 ورقة بحثية مميزة، تمثل حوالي 3%. أما بقية الأوراق فهي ملصقات.
تقدير الوضع، سحابة النقاط ثلاثية الأبعاد، قائمة الأوراق الممتازة
ما هي نتائج الأبحاث المثيرة التي جلبها لنا هذا الحدث الكبير في مجال الرؤية الحاسوبية هذا العام؟
لقد قمنا باختيار 15 ورقة بحثية من الأوراق المختارة، والتي تغطي اتجاهات متعددة مثل اكتشاف الكائنات ثلاثية الأبعاد، وتقدير الوضع، وتصنيف الصور، والتعرف على الوجوه.
إعادة تعريف المشاة "الرجاء عدم الإزعاج: إعادة تعريف المشاة في ظل تدخل المشاة الآخرين"

وحدة:جامعة هواتشونغ للعلوم والتكنولوجيا، جامعة صن يات صن، مختبر يوتيوب تينسنت
ملخص:
تفترض عملية إعادة تحديد هوية الشخص التقليدية أن الصورة المقصوصة تحتوي على شخص واحد فقط. ومع ذلك، في المشاهد المزدحمة، قد تولد أجهزة الكشف الجاهزة صناديق حدودية لأشخاص متعددين مع وجود نسبة كبيرة من المشاة في الخلفية أو الانسدادات البشرية.
قد تحتوي الميزات المستخرجة من هذه الصور التي تحتوي على تداخل المشاة على معلومات تداخل، مما سيؤدي إلى نتائج استرجاع خاطئة.
ولحل هذه المشكلة، يقترح هذا البحث شبكة عميقة جديدة (PISNet). يستخدم PISNet أولاً وحدة الانتباه الموجهة بالصورة Query لتحسين ميزات الهدف في الصورة.
بالإضافة إلى ذلك، نقترح وحدة انتباه عكسية ووظيفة فقدان الفصل بين عدة أشخاص لتعزيز وحدة الانتباه لقمع تدخل المشاة الآخرين.تم تقييم طريقتنا على مجموعتين جديدتين من بيانات تداخل المشاة، وأظهرت النتائج أنها تتفوق على طرق Re-ID الحديثة.

تقدير الوضعية "تقدير الوضعية ثلاثية الأبعاد لأشخاص متعددين في مشاهد مزدحمة عبر هندسة وجهات نظر متعددة"

وحدة:جامعة جونز هوبكنز، الجامعة الوطنية في سنغافورة
ملخص:
تشكل القيود المتطرفة القضية الأساسية في مطابقة الميزات وتقدير العمق في طرق تقدير وضعية الإنسان ثلاثية الأبعاد الحالية متعددة الآلات. على الرغم من أن الصياغة تؤدي أداءً مرضيًا في مشاهد الحشود المتفرقة، إلا أن فعاليتها غالبًا ما تكون موضع تساؤل في مشاهد الحشود الكثيفة، ويرجع ذلك أساسًا إلى الغموض الناجم عن مصدرين.
الأول هو عدم تطابق المفاصل البشرية بسبب القرائن البسيطة التي توفرها المسافة الإقليدية بين المفاصل والخطوط فوق القطبية. المشكلة الثانية هي الافتقار إلى القوة نتيجة التقليل من أهمية المشكلة بطريقة ساذجة باستخدام أقل المربعات.
في هذه المقالة،نحن ننطلق من صياغة تقدير وضعية ثلاثية الأبعاد متعددة الأشخاص ونعيد صياغتها كتقدير وضعية الحشد.يتألف نهجنا من عنصرين رئيسيين: نموذج رسومي للمطابقة السريعة للعرض المتقاطع ومقدر الحد الأقصى الخلفي (MAP) لإعادة بناء وضع الإنسان ثلاثي الأبعاد. نحن نظهر فعالية وتفوق نهجنا على أربع مجموعات بيانات مرجعية.

وصف الصور 《إنشاء وصف باللغة الطبيعية من خلال تحليل الرسم البياني للمشهد》

وحدة:مختبر تينسنت للذكاء الاصطناعي، جامعة ويسكونسن-ماديسون
ملخص:
تقترح هذه الورقة طريقة لتوليد وصف باللغة الطبيعية تعتمد على تحلل الرسم البياني للمشهد.
يعد استخدام اللغة الطبيعية لوصف الصور مهمة صعبة. تستعرض هذه الورقة تعبير الرسم البياني للمشهد وتقترح طريقة لإنشاء وصف باللغة الطبيعية للصور بناءً على تحلل الرسم البياني للمشهد. جوهر هذه الطريقة هو تحليل الرسم البياني للمشهد المقابل لصورة ما إلى عدة رسوم بيانية فرعية، حيث يتوافق كل رسم بياني فرعي مع جزء من المحتوى أو جزء من مساحة الصورة.من خلال تحديد الرسوم البيانية الفرعية المهمة من خلال شبكة عصبية لتوليد جملة كاملة تصف الصورة، يمكن لهذه الطريقة توليد أوصاف دقيقة ومتنوعة وقابلة للتحكم باللغة الطبيعية.وأجرى الباحثون أيضًا تجارب واسعة النطاق، وأظهرت النتائج مزايا هذا النموذج الجديد.

شبكات كبسولات رباعية الأبعاد لسحب النقاط ثلاثية الأبعاد

وحدة:جامعة ستانفورد، الجامعة التقنية في دورتموند، جامعة بادوفا
ملخص:
نقترح بنية كبسولة ثلاثية الأبعاد لمعالجة السحب النقطية المكافئة لمجموعات SO(3) من الدورات والترجمات والتباديل لمجموعة إدخال غير مرتبة.
تعمل الشبكة على مجموعة متفرقة من إطارات المرجع المحلية التي يتم حسابها من سحابة النقاط المدخلة. تحقق الشبكة تباينًا من البداية إلى النهاية من خلال طبقة كبسولة مجموعة رباعية الأبعاد جديدة، والتي تتضمن عملية توجيه ديناميكية متساوية التباين.
تمكننا طبقات الكبسولة من فصل الهندسة عن الوضعية، مما يمهد الطريق لمساحات كامنة أكثر إفادة ومنظمة.من خلال القيام بذلك، نقوم نظريًا بربط عملية التوجيه الديناميكي بين الكبسولات بخوارزمية Weiszfeld المعروفة لحل مشكلة المربعات الصغرى المرجحة تكراريًا (IRLS) مع خصائص التقارب القابلة للإثبات، وبالتالي تحقيق تقدير قوي للوضع عبر طبقات الكبسولة.
بفضل كبسولات الرباعية المتباينة المتفرقة، يسمح تصميمنا بتصنيف الكائنات المشتركة وتقدير الاتجاه، والذي نتحقق من صحته تجريبياً على مجموعات بيانات معيارية مشتركة.

التعرف على الوجه 《التعرف على الوجه بشكل قابل للتفسير》

وحدة:أبحاث الأنظمة والتكنولوجيا، مختبرات Visym
ملخص:
التعرف على الوجوه القابل للتفسير (XFR باختصار) هو مشكلة تفسير نتائج المطابقة التي تم إرجاعها بواسطة مطابق الوجوه.يوفر هذا نظرة ثاقبة حول سبب تطابق جهاز الكشف مع هوية واحدة وليس أخرى.إن فهم هذا المبدأ يمكن أن يساعد الناس على الثقة وشرح التعرف على الوجه.
في هذه الورقة، نقدم أول معيار شامل وتقييم أساسي لـ XFR. لقد قمنا بتحديد مخطط تقييم جديد يسمى "لعبة التلوين"، وهو عبارة عن مجموعة مختارة من 3648 ثلاثية (مسبار، رفيق، غير رفيق) من 95 موضوعًا، مما يؤدي إلى إنشاء غير رفيق مُرقّع من خلال تلوين ملامح الوجه المحددة بشكل مصطنع (مثل الأنف أو الحاجب أو الفم).
تتمثل مهمة خوارزمية XFR في إنشاء خريطة انتباه الشبكة التي تشير بشكل أفضل إلى المناطق في صورة المجس التي تتطابق مع الصورة المزدوجة، بدلاً من المناطق غير المطابقة المرسومة لكل ثلاثية. يوفر هذا أساسًا لقياس مناطق الصورة التي تساعد في مطابقة الوجه.
أخيرًا، نقدم معيارًا شاملًا لهذه المجموعة من البيانات، من خلال مقارنة خمس خوارزميات متطورة على ثلاثة مطابقات للوجوه. يتضمن هذا المعيار خوارزميتين جديدتين، تسمى Subtree EBP وDensity-based Input Sampling Explanation (DISE)، والتي تتفوق بشكل كبير على التقنيات الحديثة الحالية.
كما نعرض تصورات نوعية لتقنيات انتباه الشبكة هذه على صور جديدة ونستكشف كيف يمكن لنماذج التعرف على الوجوه القابلة للتفسير أن تعمل على تحسين الشفافية والثقة في مطابقات الوجوه.

تقدير العمر 《توليف تحويل العمر إلى عمر》

وحدة:جامعة واشنطن، جامعة ستانفورد، أبحاث أدوبي
ملخص:
نقوم بحل مشكلة التقدم في العمر والانحدار لصورة واحدة - التنبؤ بكيفية ظهور الشخص في المستقبل أو في الماضي.
تقتصر معظم طرق الشيخوخة الحالية على تغيير الملمس وتتجاهل التغييرات في شكل الرأس أثناء الشيخوخة والنمو البشري. ويحد هذا من إمكانية تطبيق الأساليب السابقة على كبار السن، كما أن تطبيق هذه الأساليب على صور الأطفال لا يؤدي إلى نتائج عالية الجودة.
نقترح بنية شبكية تنافسية جديدة متعددة المجالات لتوليد الصور من صورة إلى صورة، حيث تقوم نماذج الفضاء الكامنة المكتسبة بمحاكاة عملية شيخوخة ثنائية الاتجاه مستمرة.يتم تدريب الشبكة على مجموعة بيانات FFHQ، والتي نقوم بتسميتها وفقًا للعمر والجنس والتجزئة الدلالية. استخدم فئات الأعمار الثابتة كنقطة ارتكاز لتقريب التحولات العمرية المستمرة.يمكن لإطار عملنا التنبؤ بالصور الكاملة للرأس التي تتراوح أعمارها بين 0 إلى 70 عامًا بناءً على صورة واحدة فقط، وتعديل الملمس وشكل الرأس.نحن نقدم نتائج على مجموعة واسعة من الصور ومجموعات البيانات، ونظهر تحسينات كبيرة مقارنة بأحدث التقنيات.

البوابة: الأوراق والرموز، كل ذلك بنقرة واحدة
ما سبق هو مجرد غيض من فيض من آلاف الأوراق البحثية المختارة في ECCV 2020. ومع ذلك، في مواجهة كمية هائلة من 1361 ورقة بحثية، فليس من السهل حقًا العثور على الأوراق التي تهمك، بالإضافة إلى الروابط الأصلية والرموز وما إلى ذلك.
ومع ذلك، أ فريق ملخص الورق لقد مهد الفريق الطريق للقراء، ولم يعد العثور على الأوراق والرموز مشكلة.
نشر الفريق مؤخرًا ملخصًا لأهم ما جاء في ورقة ECCV 2020 في جملة واحدة.تم تلخيص كل ورقة في جملة واحدة، وكانت مختصرة ومختصرة، وتم إرفاق عنوان الورقة.السماح للقراء بالعثور بسرعة على الأوراق التي يريدون قراءتها أكثر.

العنوان متاح لك لتأخذه:
بالإضافة إلى ذلك، قاموا أيضًا بتجميع 170 ورقة بحثية بعناية تحتوي على أكواد منشورة. يمكن للقراء النقر مباشرة على الرابط المقابل لعرض الكود:
بالإضافة إلى ذلك، قام موقع crossminds.ai أيضًا بتجميع عرض الورقة الشفوية، ويمكن للقراء فهم التكنولوجيا في الورقة بشكل أكثر وضوحًا وبديهية من خلال العرض التوضيحي، وهو أمر مثير للاهتمام للغاية:
https://crossminds.ai/category/eccv%202020/
-- زيادة--