MMSFormer: متعدد الوسائط ترانسفورمر لتقسيم المواد والمعنى

استغلال المعلومات عبر أنماط متنوعة معروف بأنه يعزز الأداء في مهام التقطيع متعددة الأنماط. ومع ذلك، فإن دمج المعلومات بشكل فعال من أنماط مختلفة لا يزال تحديًا بسبب الخصائص الفريدة لكل نمط. في هذا البحث، نقترح استراتيجية دمج جديدة يمكنها دمج المعلومات بشكل فعال من تركيبات مختلفة لأنماط متعددة. كما نقترح نموذجًا جديدًا باسم Multi-Modal Segmentation TransFormer (MMSFormer) يدمج الاستراتيجية المقترحة للقيام بمهام تقطيع المواد والدلالات المتعددة الأنماط. يتفوق MMSFormer على النماذج الرائدة حاليًا في ثلاثة مجموعات بيانات مختلفة. مع بدء العمل بنمط إدخال واحد فقط، يتحسن الأداء تدريجيًا عند إضافة أنماط إضافية، مما يظهر فعالية كتلة الدمج في الجمع بين المعلومات المفيدة من أنماط الإدخال المتنوعة. تُظهر دراسات الاستبعاد أن الوحدات المختلفة في كتلة الدمج ضرورية للأداء الشامل للنموذج. بالإضافة إلى ذلك، تسلط دراسات الاستبعاد الضوء أيضًا على قدرة أنماط الإدخال المختلفة على تحسين الأداء في تحديد أنواع مختلفة من المواد. سيتم توفير الكود والنماذج المدربة مسبقًا على الرابط https://github.com/csiplab/MMSFormer.