PSALM: تقسيم البكسلات باستخدام نموذج متعدد الأوضاع ذو الحجم الكبير

يعد PSALM امتدادًا قويًا لنموذج البيانات المتعددة الكبيرة (LMM) لمعالجة تحديات مهمة تقسيم الصور. من أجل التغلب على قيود النموذج الأصلي المقتصر على الإخراج النصي، تم دمج مفكك الأقنعة (mask decoder) وスキ마(输入模式)مصممة بعناية في PSALM لمعالجة مجموعة متنوعة من مهام تقسيم الصور. تشمل هذه الスキ马(输入模式)الصور، تعليمات المهمة، الدعوات الشرطية، وأدوات القناع، مما يتيح للنموذج إنشاء تصنيف أقنعة التقسيم بكفاءة. يدعم التصميم المرن لـ PSALM التدريب المشترك عبر عدة قواعد بيانات ومهمات، مما يؤدي إلى تحسين الأداء والعمومية في المهمات. حقق PSALM نتائج متفوقة في العديد من المقاييس مثل RefCOCO/RefCOCO+/RefCOCOg، COCO تقسيم البانورامي (Panoptic Segmentation)، وCOCO-Interactive، كما أظهر قدرات غير مرئية (zero-shot) في مهمات جديدة لم يتم رؤيتها سابقًا مثل تقسيم المفردات المفتوحة (open-vocabulary segmentation)، تقسيم العبارات المرجعية العامة (generalized referring expression segmentation)، وتقسيم الكائنات في الفيديو (video object segmentation). هذا يعتبر خطوة كبيرة نحو لحظة GPT في مجال الرؤية الحاسوبية. من خلال التجارب الواسعة، أثبت PSALM إمكاناته في تحويل مجال تقسيم الصور، مستفيدًا من قدرات فهم الصور القوية التي تظهرها نماذج البيانات المتعددة الكبيرة كما هو الحال في معالجة اللغة الطبيعية. يمكن الوصول إلى الشفرة البرمجية والنماذج عبر الرابط: https://github.com/zamling/PSALM.注:在上述翻译中,“スキマ”(输入模式)一词是日语,可能是原文中的误植。正确的阿拉伯语翻译应该是“المخطط”或“الهيكل”. 下面是修正后的版本:يعد PSALM امتدادًا قويًا لنموذج البيانات المتعددة الكبيرة (LMM) لمعالجة تحديات مهمة تقسيم الصور. من أجل التغلب على قيود النموذج الأصلي المقتصر على الإخراج النصي، تم دمج مفكك الأقنعة (mask decoder) والمخطط الإدخالي المصمم بدقة في PSALM لمعالجة مجموعة متنوعة من مهام تقسيم الصور. يشمل هذا المخطط الإدخالي الصور، تعليمات المهمة، الدعوات الشرطية، وأدوات القناع، مما يتيح للنموذج إنشاء وتصنيف أقنعة التقسيم بكفاءة. يدعم التصميم المرن لـ PSALM التدريب المشترك عبر عدة قواعد بيانات ومهمات، مما يؤدي إلى تحسين الأداء والعمومية في المهمات. حقق PSALM نتائج متفوقة في العديد من المقاييس مثل RefCOCO/RefCOCO+/RefCOCOg، COCO تقسيم البانورامي (Panoptic Segmentation)، وCOCO-Interactive، كما أظهر قدرات غير مرئية (zero-shot) في مهمات جديدة لم يتم رؤيتها سابقًا مثل تقسيم المفردات المفتوحة (open-vocabulary segmentation)، تقسيم العبارات المرجعية العامة (generalized referring expression segmentation)، وتقسيم الكائنات في الفيديو (video object segmentation). هذا يعتبر خطوة كبيرة نحو لحظة GPT في مجال الرؤية الحاسوبية. من خلال التجارب الواسعة، أثبت PSALM إمكاناته في تحويل مجال تقسيم الصور، مستفيدًا من قدرات فهم الصور القوية التي تظهرها نماذج البيانات المتعددة الكبيرة كما هو الحال في معالجة اللغة الطبيعية. يمكن الوصول إلى الشفرة البرمجية والنماذج عبر الرابط: https://github.com/zamling/PSALM.