AI-SAM: نموذج التجزئة التلقائي والتفاعلي "Anything"

التحليل الدلالي يُعد مهمة أساسية في رؤية الحاسوب. تُقسَّم الأساليب الحالية عادة إلى فئتين: تلقائية وتفاعلية. وقد أظهرت الأساليب التفاعلية، مثل نموذج Segment Anything (SAM)، إمكانات كبيرة كنماذج مُدرَّبة مسبقًا. ومع ذلك، فإن استراتيجيات التكيّف الحالية لهذه النماذج تميل إلى الالتزام إما بالأساليب التلقائية أو التفاعلية. تعتمد الأساليب التفاعلية على مدخلات المستخدم من خلال الحوافز (prompts) للعمل، بينما تتجاوز الأساليب التلقائية القدرة على التفاعل مع الحوافز تمامًا. لمعالجة هذه القيود، نقدّم نموذجًا جديدًا وطريقةً بارزة: نموذج Segment Anything التلقائي والتفاعلي (AI-SAM). في هذه الطريقة، نُجري تحليلًا شاملاً لجودة الحوافز، ونقدّم أول مُحفِّز تلقائي وتفاعلي (AI-Prompter) يُولِّد تلقائيًا نقاطًا أولية كحوافز، مع السماح بدمج إضافات من المستخدم. تُظهر النتائج التجريبية فعالية AI-SAM في البيئة التلقائية، حيث يحقق أداءً يُعدّ الأفضل في مجاله. وبشكل ملحوظ، يُقدِّم المرونة لدمج حوافز إضافية من المستخدم، مما يعزز أداءه بشكل أكبر. يمكن زيارة صفحة المشروع عبر الرابط: https://github.com/ymp5078/AI-SAM.