HyperAIHyperAI
منذ 2 أشهر

مرحبا بكم في نموذج SAM: دمج نموذج تقسيم أي شيء لتقسيم النص الهرمي

Ye, Maoyuan ; Zhang, Jing ; Liu, Juhua ; Liu, Chenyu ; Yin, Baocai ; Liu, Cong ; Du, Bo ; Tao, Dacheng
مرحبا بكم في نموذج SAM: دمج نموذج تقسيم أي شيء لتقسيم النص الهرمي
الملخص

نموذج "Segment Anything Model" (SAM)، وهو نموذج أساسي للرؤية مُدرب على مجموعة بيانات كبيرة، يكسر حدود التجزئة العامة ويحفز تطبيقات متعددة في المراحل اللاحقة. يقدم هذا البحث نموذج Hi-SAM، وهو نموذج موحد يستخدم SAM للتجزئة الهرمية للنصوص. يتميز Hi-SAM بقدرته على التجزئة عبر أربع مستويات هرمية، تشمل النصوص على مستوى البكسل والكلمات وخطوط النص والفقرات، مع تحقيق تحليل التخطيط أيضًا.بشكل خاص، نحول أولًا SAM إلى نموذج تجزئة نصوص عالي الجودة على مستوى البكسل من خلال طريقة تعديل دقيقة وكفاءة في استخدام المعلمات. نستخدم هذا النموذج لتجزئة النصوص لإنتاج العلامات على مستوى البكسل بطريقة شبه آلية، مما يوحّد العلامات عبر الأربع مستويات الهرمية في مجموعة بيانات HierText. بعد ذلك، باستخدام هذه العلامات الكاملة، نطلق Hi-SAM القابل للتدريب من البداية إلى النهاية والمبني على هيكل TS مع محكم فك التشفير الهرمي المخصص.خلال الاستدلال، يقدم Hi-SAM كلاً من وضع إنشاء القناع تلقائيًا (AMG) ووضع التجزئة القابل للتوجيه (PS). في وضع AMG، يقوم Hi-SAM بتجزئة أقنعة النصوص في المقدمة على مستوى البكسل أولاً، ثم يقوم بتقديم نقاط المقدمة لعملية إنشاء الأقنعة الهرمية وتحقيق تحليل التخطيط بشكل غير مباشر. بالنسبة لوضع PS، يمكن لنماذج Hi-SAM توفير أقنعة الكلمات وخطوط النص والفقرات بضغطة واحدة فقط.تظهر النتائج التجريبية الأداء الرائد لنموذجنا TS: 84.86% fgIOU على Total-Text و88.96% fgIOU على TextSeg لتجزئة النصوص على مستوى البكسل. بالإضافة إلى ذلك، مقارنة بالنموذج المتخصص السابق في الكشف الهرمي المشترك وتحليل التخطيط في HierText، حقق Hi-SAM تحسينات كبيرة: 4.73% PQ و5.39% F1 على مستوى خطوط النص، و5.49% PQ و7.39% F1 في تحليل تخطيط الفقرات، مع الحاجة إلى عدد أقل بكثير من دورات التدريب (20 مرة أقل).يتوفر الكود بموقع https://github.com/ymy-k/Hi-SAM.

مرحبا بكم في نموذج SAM: دمج نموذج تقسيم أي شيء لتقسيم النص الهرمي | أحدث الأوراق البحثية | HyperAI