Command Palette
Search for a command to run...
التحفيز البصري للتقسيم القليل العينات العام: نهج متعدد المقياس
التحفيز البصري للتقسيم القليل العينات العام: نهج متعدد المقياس
Mir Rayat Imtiaz Hossain Mennatullah Siam Leonid Sigal James J. Little
الملخص
ظهور نماذج الترانسفورمر القائمة على الانتباه أدى إلى استخدامها الواسع في مهام مختلفة، بفضل تفوق خصائص التعميم والنقل لديها. وقد أظهرت الأبحاث الحديثة أن هذه النماذج، عند تحفيزها بشكل مناسب، تكون ممتازة للاستدلال بمجموعة قليلة من الأمثلة (few-shot inference). ومع ذلك، فإن مثل هذه التقنيات لم يتم استكشافها بشكل كافٍ في المهام التي تتطلب تنبؤًا كثيفًا مثل تقسيم الدلالة (semantic segmentation).في هذا العمل، نقوم بفحص فعالية تحفيز محول الفك (transformer-decoder) باستخدام تحفيزات بصرية تم تعلمها لمهام تقسيم الدلالة بمجموعة قليلة من الأمثلة بشكل عام (Generalized Few-Shot Segmentation - GFSS). هدفنا هو تحقيق أداء قوي ليس فقط في الفئات الجديدة ذات الأمثلة المحدودة، ولكن أيضًا الحفاظ على الأداء في الفئات الأساسية.نقترح نهجًا لتعلم التحفيزات البصرية باستخدام أمثلة محدودة. يتم استخدام هذه التحفيزات البصرية المُتعلَّمة لتحفيز محول الفك متعدد المقاييس (multiscale transformer decoder) لتسهيل التنبؤات الكثيفة الدقيقة. بالإضافة إلى ذلك، نقدم آلية انتباه أحادي الاتجاه سببية بين التحفيزات الجديدة، التي تم تعلمها بأمثلة محدودة، والتحفيزات الأساسية، التي تم تعلمها باستخدام بيانات وفيرة. تعمل هذه الآلية على غنى التحفيزات الجديدة دون الإضرار بالأداء في فئات البيانات الأساسية.بشكل عام، يساعد هذا الشكل من التحفيز على تحقيق أفضل الأداء الحالي لـ GFSS على مجموعتين مختلفتين من البيانات المرجعية: COCO-20i وPascal-5i، دون الحاجة إلى تحسين وقت الاختبار (أو الاستدلال). علاوة على ذلك، يمكن استخدام تحسين وقت الاختبار الذي يستفيد من بيانات الاختبار غير المصنفة لتحسين التحفيزات، والتي نشير إليها باسم ضبط التحفيز الاستدلالي (transductive prompt tuning).