HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم توليد قناع مرتبط بالنص للتقسيم الدلالي في العالم المفتوح من صور ونصوص فقط

Junbum Cha Jonghwan Mun Byungseok Roh

الملخص

نقوم بمعالجة التجزئة الدلالية للعالم المفتوح، والتي تهدف إلى تعلم تقسيم المفاهيم البصرية العشوائية في الصور باستخدام أزواج الصورة-النص فقط دون الحاجة إلى شروحات كثيفة. قد أظهرت الطرق الحالية للتجزئة في العالم المفتوح تقدمًا ملحوظًا من خلال استخدام التعلم التبايني (CL) لتعلم مفاهيم بصرية متنوعة ونقل الفهم المستمد من مستوى الصورة إلى مهمة التجزئة. ومع ذلك، تعاني هذه الطرق القائمة على CL من اختلاف بين مرحلة التدريب والاختبار، حيث أنها تركز فقط على تناسق الصورة-النص أثناء التدريب، بينما تتطلب التجزئة تناسق المنطقة-النص أثناء الاختبار. في هذا البحث، اقترحنا إطارًا جديدًا للتعلم التبايني المستند إلى النص (TCL) يمكّن النموذج من تعلم تناسق المنطقة-النص بشكل مباشر. طريقتنا تولد قناع تجزئة لنص معطى، تستخرج تمثيل صورة مستند إلى النص من المنطقة المقنعة، وتتناسقه مع تمثيل النص عبر TCL. عن طريق تعلم تناسق المنطقة-النص مباشرة، يشجع إطارنا النموذج على تحسين جودة الأقنعة المنتجة للتجزئة بشكل مباشر. بالإضافة إلى ذلك، لأجل مقارنة دقيقة وعادلة، نقدم بروتوكول تقييم موحد مع ثماني مجموعات بيانات شائعة لتجزئة الصور الدلالية. يحقق TCL أفضل الأداءات في التجزئة بدون إشراف (zero-shot) بأرقام كبيرة في جميع مجموعات البيانات. يمكن الحصول على الكود من https://github.com/kakaobrain/tcl.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp