HyperAIHyperAI
منذ 11 أيام

التعلم التلقائي للتمثيل البصري مع التجميع المعنوي

Xin Wen, Bingchen Zhao, Anlin Zheng, Xiangyu Zhang, Xiaojuan Qi
التعلم التلقائي للتمثيل البصري مع التجميع المعنوي
الملخص

في هذه الورقة، نتناول مشكلة تعلم تمثيلات بصرية من بيانات متمحورة حول المشهد غير المُسَمَّاة. وقد أظهرت الدراسات السابقة الإمكانات الكامنة في استغلال البنية المعقدة الكامنة داخل البيانات المتمحورة حول المشهد؛ ومع ذلك، فإنها تعتمد غالبًا على مُسبقات كائنية مُصممة يدويًا أو مهام مُسبقة متخصصة لبناء إطار تعلم، مما قد يؤثر سلبًا على قدرة التعميم. بدلًا من ذلك، نقترح تعلمًا تباينيًا من فراغات معنوية مُستندة إلى البيانات، يُسمى SlotCon، لتعلم مجموعات معنوية مشتركة وتمثيلات بصرية. يتم تنفيذ التجميع المعنوي من خلال تعيين البكسلات إلى مجموعة من البروتوتيبات القابلة للتعلم، التي يمكنها التكيف مع كل عينة من خلال عملية تجميع انتقائي على الميزات، وتشكيل فراغات جديدة. وباستنادًا إلى الفراغات المُتعلَّمة المعتمدة على البيانات، نستخدم هدفًا تباينيًا لتعلم التمثيلات، والذي يعزز تمييز الميزات، ويعزز بالتالي تجميع البكسلات ذات المعاني المتماسكة معًا. مقارنةً بالجهود السابقة، وباستخدام تحسين متزامن للهدفين المترابطين للجمع المعنوي والتعلم التبايني، يتجنَّب نهجنا عيوب المُسبقات المُصممة يدويًا، ويتاح له تعلُّم تمثيلات على مستوى الكائنات/المجموعات من الصور المتمحورة حول المشهد. أظهرت التجارب أن نهجنا يُعدّل بنجاح المشاهد المعقدة إلى مجموعات معنوية لتعلم الميزات، ويساهم بشكل كبير في المهام التالية، بما في ذلك الكشف عن الكائنات والتقسيم الحادّ للInstances والتقسيم المعنوي. الكود متاح على: https://github.com/CVMI-Lab/SlotCon.

التعلم التلقائي للتمثيل البصري مع التجميع المعنوي | أحدث الأوراق البحثية | HyperAI