Command Palette
Search for a command to run...
FaceNet: تضمين موحد للتعريف بالوجه والتخزين التجميعي
FaceNet: تضمين موحد للتعريف بالوجه والتخزين التجميعي
Schroff Florian Kalenichenko Dmitry Philbin James
الملخص
رغم التقدم الكبير الذي تم إحرازه مؤخرًا في مجال التعرف على الوجوه، لا تزال عملية تنفيذ التحقق من الهوية وتمييز الوجوه بكفاءة على نطاق واسع تشكل تحديات جسيمة أمام الطرق الحالية. في هذا البحث، نقدم نظامًا يُسمى FaceNet، والذي يتعلم مباشرةً تطبيقًا من صور الوجوه إلى فضاء أوروclideي مكثف، حيث تتناسب المسافات مباشرةً مع قياس تشابه الوجوه. بمجرد إنتاج هذا الفضاء، يمكن تنفيذ المهام مثل التعرف على الوجوه والتحقق منها والتصنيف (Clustering) بسهولة باستخدام تقنيات قياسية، مع استخدام متجهات التضمين (embeddings) الخاصة بـ FaceNet كمتجهات خصائص.تعتمد طريقة عملنا على شبكة تلافيفية عميقة تم تدريبها لتoptimize التضمين نفسه مباشرةً، بدلًا من طبقة عقبية وسيطة كما كان الحال في الطرق السابقة القائمة على التعلم العميق. لتدريب النموذج، نستخدم مجموعات من ثلاث صور (Triplets) تتكون من قطع وجوه متطابقة/غير متطابقة تم تجهيزها تقريبًا باستخدام طريقة مبتكرة لاستخراج المجموعات الثلاثية (online triplet mining). يتم يتميز نهجنا بفعالية تمثيلية أعلى بكثير: حيث نحقق أداءً متميزًا في التعرف على الوجوه باستخدام فقط 128 بايت لكل وجه.على مجموعة البيانات الشهيرة Labeled Faces in the Wild (LFW)، يحقق نظامنا دقة قياسية جديدة تبلغ 99.63٪. وعلى قاعدة بيانات YouTube Faces DB، يحقق 95.12٪. كما أن نظامنا يقلل من معدل الخطأ مقارنة بأفضل نتيجة منشورة بنسبة 30٪ على كلا المجموعتين.كما نقدم مفهوم التضمينات التوافقية (harmonic embeddings)، ووظيفة خسارة المجموعة الثلاثية التوافقية (harmonic triplet loss)، والتي تصف إصدارات مختلفة من تضمينات الوجوه (التي تُنتج بواسطة شبكات مختلفة) التي تكون متوافقة مع بعضها البعض، وتمكّن من المقارنة المباشرة بينها.