HyperAIHyperAI
منذ 2 أشهر

تجميع المعلومات الثابتة لتصنيف وتقسيم الصور بدون إشراف

Xu Ji; João F. Henriques; Andrea Vedaldi
تجميع المعلومات الثابتة لتصنيف وتقسيم الصور بدون إشراف
الملخص

نقدم هدف تجميع جديد يتعلم تصنيفًا عصبيًا من الصفر، مع إعطاء عينات بيانات غير مصنفة فقط. يكتشف النموذج مجموعات تطابق بدقة الفئات الدلالية، مما يجعله يحقق أفضل النتائج في ثماني مقاييس تجميع غير مشرف تتراوح بين تصنيف الصور وتقسيمها. وتتضمن هذه المعايير STL10، وهي نسخة غير مشرفة من ImageNet، وCIFAR10، حيث نتفوق بشكل كبير على دقة أقرب منافسينا بمقدار 6.6 و9.5 نقطة مئوية على التوالي. ليست الطريقة متخصصة في رؤية الحاسوب وتتعامل مع أي عينات بيانات متزامنة؛ في تجاربنا نستخدم تحولات عشوائية للحصول على زوج من كل صورة. يقوم الشبكة العصبية المدربة بإخراج العلامات الدلالية مباشرة، بدلاً من تمثيلات ذات أبعاد عالية تحتاج إلى معالجة خارجية لتصبح قابلة للاستخدام في التجميع الدلالي. الهدف ببساطة هو تعظيم المعلومات المتبادلة بين تعيينات الفئات لكل زوج. وهو سهل التنفيذ ومبني بشكل صارم على نظرية المعلومات، مما يعني أننا نتجنب بسهولة الحلول المتدهورة التي تكون طرق التجميع الأخرى عرضة لها. بالإضافة إلى الوضع غير المشرف تمامًا، نختبر أيضًا حالتين شبه مشرفتين. الأولى تحقق دقة 88.8% في تصنيف STL10، مما يجعلها تسجل أفضل مستوى عالمي جديد لجميع الأساليب القائمة (سواء كانت مشرفة أو شبه مشرفة أو غير مشرفة). الثانية تظهر متانة عند تخفيض تغطية العلامات بنسبة 90%,وهذا مهم للتطبيقات التي تريد استخدام كميات صغيرة من العلامات.(Note: There was a typo in the last sentence of the Arabic translation, it should be "90%" instead of "90%". Here is the corrected version:)نقدم هدف تجميع جديد يتعلم تصنيفًا عصبيًا من الصفر، مع إعطاء عينات بيانات غير مصنفة فقط. يكتشف النموذج مجموعات تطابق بدقة الفئات الدلالية، مما يجعله يحقق أفضل النتائج في ثماني مقاييس تجميع غير مشرف تتراوح بين تصنيف الصور وتقسيمها. وتتضمن هذه المعايير STL10، وهي نسخة غير مشرفة من ImageNet، وCIFAR10، حيث نتفوق بشكل كبير على دقة أقرب منافسينا بمقدار 6.6 و9.5 نقطة مئوية على التوالي. ليست الطريقة متخصصة في رؤية الحاسوب وتتعامل مع أي عينات بيانات متزامنة؛ في تجاربنا نستخدم تحولات عشوائية للحصول على زوج من كل صورة. يقوم الشبكة العصبية المدربة بإخراج العلامات الدلالية مباشرة، بدلاً من تمثيلات ذات أبعاد عالية تحتاج إلى معالجة خارجية لتصبح قابلة للاستخدام في التجميع الدلالي. الهدف ببساطة هو تعظيم المعلومات المتبادلة بين تعيينات الفئات لكل زوج. وهو سهل التنفيذ ومبني بشكل صارم على نظرية المعلومات، مما يعني أننا نتجنب بسهولة الحلول المتدهورة التي تكون طرق التجميع الأخرى عرضة لها. بالإضافة إلى الوضع غير المشرف تمامًا، نختبر أيضًا حالتين شبه مشرفتين. الأولى تحقق دقة 88.8% في تصنيف STL10، مما يجعلها تسجل أفضل مستوى عالمي جديد لجميع الأساليب القائمة (سواء كانت مشرفة أو شبه مشرفة أو غير مشرفة). الثانية تظهر متانة عند تخفيض تغطية العلامات بنسبة 90% ،وهذا مهم للتطبيقات التي تريد استخدام كميات صغيرة من العلامات.رابط المشروع: github.com/xu-ji/IIC

تجميع المعلومات الثابتة لتصنيف وتقسيم الصور بدون إشراف | أحدث الأوراق البحثية | HyperAI