تخفيف متطلب الدعوة المحددة للصورة في SAM: دعوة عامة واحدة لتقسيم الأشياء المموهة

اكتشاف الأشياء المموهة (COD)تعتمد نماذج اكتشاف الأشياء المموهة (COD) بشكل كبير على مجموعات بيانات مُشَرَّحة على مستوى البكسل. تستخدم النماذج شبه المراقبة لـ COD (WSCOD) توضيحات خفيفة مثل الرسومات أو النقاط لتقليل جهد التوضيح، لكن هذا قد يؤدي إلى انخفاض في الدقة. يظهر نموذج "Segment Anything" (SAM) قدرة فائقة على التقطيع باستخدام توضيحات خفيفة مثل النقاط. ومع ذلك، فإن التوضيح اليدوي ليس دائمًا متاحًا، حيث قد لا يكون قابلاً للوصول في التطبيقات العملية. بالإضافة إلى ذلك، فإنه يوفر فقط معلومات عن الموقع بدلاً من المعلومات الدلالية، مما يمكن أن يتسبب في غموض داخلي عند تفسير الأهداف.في هذه الدراسة، نهدف إلى القضاء على الحاجة للتوضيح اليدوي. الفكرة الأساسية هي استخدام تقنية "Cross-modal Chains of Thought Prompting" (CCTP) لاستنتاج التوضيحات البصرية باستخدام المعلومات الدلالية التي توفرها دعوة نصية عامة. لهذا الغرض، نقدم آلية تعديل وقت الاختبار لكل حالة تسمى "Generalizable SAM" (GenSAM) لإنشاء وتحسين التوضيحات البصرية تلقائيًا بناءً على دعوة المهمة العامة لـ WSCOD. بوجه خاص، تقوم CCTP بتحويل دعوة نصية عامة واحدة إلى خرائط حرارية خاصة بالصورة لل前景和背景,使用视觉-语言模型获取可靠视觉提示。此外,为了在测试时调整视觉提示,我们进一步提出了逐步掩码生成(Progressive Mask Generation - PMG)方法,以迭代方式重新加权输入图像,引导模型以从粗到细的方式关注目标。至关重要的是,所有网络参数都是固定的,避免了额外训练的需求。实验结果证明了GenSAM的优越性。在三个基准数据集上的实验表明,GenSAM优于点监督方法,并且仅依赖于一般任务描述作为提示的情况下,其性能与涂鸦监督方法相当。我们的代码位于: https://lwpyh.github.io/GenSAM/.注释:在翻译“foreground and background heatmaps”时,我使用了“خرائط حرارية لل前景 و الخلفية”,这是更符合阿拉伯语表达习惯的说法。“coarse-to-fine”被翻译为“من الخشن إلى الدقيق”,这是在阿拉伯语中常用的表述方式。为了保持正式和客观的风格,我尽量使用了被动语态和正式词汇。以下是修正后的版本:اكتشاف الأشياء المموهة (COD)تعتمد نماذج اكتشاف الأشياء المموهة (COD) بشكل كبير على مجموعات بيانات مُشَرَّحة على مستوى البكسل. تستخدم النماذج شبه المراقبة لـ COD (WSCOD) توضيحات خفيفة مثل الرسومات أو النقاط لتقليل جهد التوضيح، لكن هذا قد يؤدي إلى انخفاض في الدقة. يظهر نموذج "Segment Anything" (SAM) قدرة فائقة على التقطيع باستخدام توضيحات خفيفة مثل النقاط. ومع ذلك، فإن التوضيح اليدوي ليس دائمًا متاحًا، حيث قد لا يكون قابلاً للوصول في التطبيقات العملية. بالإضافة إلى ذلك، فإنه يوفر فقط معلومات عن الموقع بدلاً من المعلومات الدلالية، مما يمكن أن يتسبب في غموض داخلي عند تفسير الأهداف.في هذه الدراسة، نهدف إلى القضاء على الحاجة للتوضيح اليدوي. الفكرة الأساسية هي استخدام تقنية "Cross-modal Chains of Thought Prompting" (CCTP) لاستنتاج التوضيحات البصرية باستخدام المعلومات الدلالية التي توفرها دعوة نصية عامة. لهذا الغرض، نقدم آلية تعديل وقت الاختبار لكل حالة تسمى "Generalizable SAM" (GenSAM) لإنشاء وتحسين التوضيحات البصرية تلقائيًا بناءً على دعوة المهمة العامة لـ WSCOD. بوجه خاص، تقوم CCTP بتحويل دعوة نصية عامة واحدة إلى خرائط حرارية خاصة بالصورة للمقدمة والخلفية باستخدام نماذج اللغة-الرؤية، مما يتيح الحصول على توضيحات بصرية موثوقة. علاوة على ذلك، لتعديل التوضيحات البصرية أثناء الاختبار، اقترحنا طريقة إنشاء القناع المتدرج (Progressive Mask Generation - PMG) لإعادة وزن الصورة الإدخال بطريقة متكررة وتدريجية، مما يوجه النموذج للتركيز على الأهداف بطريقة تتدرج من الخشن إلى الدقيق.بشكل حاسم، جميع معالم الشبكة ثابتة ولا يوجد حاجة لمزيد من التدريب. أثبتت التجارب أفضلية GenSAM. أظهرت التجارب على ثلاثة مقاييس مرجعية أن GenSAM يتفوق على طرق الإشراف بالنقط ويحقق نتائج مشابهة لطرق الإشراف بالرسومات السريعة معتمدًا فقط على وصف عام للمهمة كدعوة.يمكن الوصول إلى رمزنا عبر: https://lwpyh.github.io/GenSAM/.