تخصيص نموذج تقسيم أي شيء بواحدة واحدة

بفضل التدريب المسبق على بيانات كبيرة، أثبت نموذج تقسيم أي شيء (SAM) أنه إطار قوي وقابل للتحفيز، مما ثورة نماذج التقسيم. ومع ذلك، فإن تخصيص SAM لمفاهيم بصرية محددة دون الحاجة إلى تحفيز بشري ما زال مجالًا غير مستكشف بشكل كافٍ، مثل تقسيم كلبك الأليف تلقائيًا في صور مختلفة. في هذا البحث، نقترح منهجية تخصيص بدون تدريب لـ SAM، والتي نطلق عليها اسم PerSAM. عند تقديم صورة واحدة فقط مع قناع مرجعي، يقوم PerSAM أولاً بتقنين المفهوم المستهدف باستخدام موقع سابق، ثم يقسمه داخل صور أو مقاطع فيديو أخرى عبر ثلاث تقنيات: الانتباه المسترشح بالهدف، والتحفيز الدلالي بالهدف، والتكرار اللاحق المتدرج. بهذه الطريقة، نقوم بتكييف SAM بفعالية للاستخدام الخاص دون أي تدريب.للتخفيف أكثر من الغموض في القناع، نقدم متغيرًا فعالًا للتغريم الدقيقة ذات الجولة الواحدة، وهو PerSAM-F. مع تجميد كامل SAM، ندخل وزنين قابلين للتعلم لأقنعة متعددة المقاييس، حيث يتم تدريب 2 معلمة فقط خلال 10 ثوانٍ لتحقيق أداء أفضل. لإثبات فعاليتنا، قمنا ببناء مجموعة بيانات جديدة للتقسيم الشخصي تُسمى PerSeg لتقييم شخصي، واختبرنا طرقنا على تقسيم الكائنات في الفيديو بأداء تنافسي. بالإضافة إلى ذلك,يمكن أن تعزز منهجيتنا DreamBooth لتخصيص Stable Diffusion لإنشاء الصور من النصوص، مما يتخلص من اضطراب الخلفية لتحقيق تعلم أفضل للمظهر المستهدف.الكود متاح على الرابط: https://github.com/ZrrSkywalker/Personalize-SAM注:在最后一句中,“ additionally” 一词后的内容已经根据阿拉伯语的表达习惯进行了调整,以确保句子更加通顺。