HyperAIHyperAI

Command Palette

Search for a command to run...

PSALM: تقسيم البكسلات باستخدام نموذج متعدد الأوضاع ذو الحجم الكبير

Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai

الملخص

يعد PSALM امتدادًا قويًا لنموذج البيانات المتعددة الكبيرة (LMM) لمعالجة تحديات مهمة تقسيم الصور. من أجل التغلب على قيود النموذج الأصلي المقتصر على الإخراج النصي، تم دمج مفكك الأقنعة (mask decoder) وスキ마(输入模式)مصممة بعناية في PSALM لمعالجة مجموعة متنوعة من مهام تقسيم الصور. تشمل هذه الスキ马(输入模式)الصور، تعليمات المهمة، الدعوات الشرطية، وأدوات القناع، مما يتيح للنموذج إنشاء تصنيف أقنعة التقسيم بكفاءة. يدعم التصميم المرن لـ PSALM التدريب المشترك عبر عدة قواعد بيانات ومهمات، مما يؤدي إلى تحسين الأداء والعمومية في المهمات. حقق PSALM نتائج متفوقة في العديد من المقاييس مثل RefCOCO/RefCOCO+/RefCOCOg، COCO تقسيم البانورامي (Panoptic Segmentation)، وCOCO-Interactive، كما أظهر قدرات غير مرئية (zero-shot) في مهمات جديدة لم يتم رؤيتها سابقًا مثل تقسيم المفردات المفتوحة (open-vocabulary segmentation)، تقسيم العبارات المرجعية العامة (generalized referring expression segmentation)، وتقسيم الكائنات في الفيديو (video object segmentation). هذا يعتبر خطوة كبيرة نحو لحظة GPT في مجال الرؤية الحاسوبية. من خلال التجارب الواسعة، أثبت PSALM إمكاناته في تحويل مجال تقسيم الصور، مستفيدًا من قدرات فهم الصور القوية التي تظهرها نماذج البيانات المتعددة الكبيرة كما هو الحال في معالجة اللغة الطبيعية. يمكن الوصول إلى الشفرة البرمجية والنماذج عبر الرابط: https://github.com/zamling/PSALM.注:在上述翻译中,“スキマ”(输入模式)一词是日语,可能是原文中的误植。正确的阿拉伯语翻译应该是“المخطط”或“الهيكل”. 下面是修正后的版本:يعد PSALM امتدادًا قويًا لنموذج البيانات المتعددة الكبيرة (LMM) لمعالجة تحديات مهمة تقسيم الصور. من أجل التغلب على قيود النموذج الأصلي المقتصر على الإخراج النصي، تم دمج مفكك الأقنعة (mask decoder) والمخطط الإدخالي المصمم بدقة في PSALM لمعالجة مجموعة متنوعة من مهام تقسيم الصور. يشمل هذا المخطط الإدخالي الصور، تعليمات المهمة، الدعوات الشرطية، وأدوات القناع، مما يتيح للنموذج إنشاء وتصنيف أقنعة التقسيم بكفاءة. يدعم التصميم المرن لـ PSALM التدريب المشترك عبر عدة قواعد بيانات ومهمات، مما يؤدي إلى تحسين الأداء والعمومية في المهمات. حقق PSALM نتائج متفوقة في العديد من المقاييس مثل RefCOCO/RefCOCO+/RefCOCOg، COCO تقسيم البانورامي (Panoptic Segmentation)، وCOCO-Interactive، كما أظهر قدرات غير مرئية (zero-shot) في مهمات جديدة لم يتم رؤيتها سابقًا مثل تقسيم المفردات المفتوحة (open-vocabulary segmentation)، تقسيم العبارات المرجعية العامة (generalized referring expression segmentation)، وتقسيم الكائنات في الفيديو (video object segmentation). هذا يعتبر خطوة كبيرة نحو لحظة GPT في مجال الرؤية الحاسوبية. من خلال التجارب الواسعة، أثبت PSALM إمكاناته في تحويل مجال تقسيم الصور، مستفيدًا من قدرات فهم الصور القوية التي تظهرها نماذج البيانات المتعددة الكبيرة كما هو الحال في معالجة اللغة الطبيعية. يمكن الوصول إلى الشفرة البرمجية والنماذج عبر الرابط: https://github.com/zamling/PSALM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
PSALM: تقسيم البكسلات باستخدام نموذج متعدد الأوضاع ذو الحجم الكبير | مستندات | HyperAI