MM-OR: مجموعة بيانات كبيرة متعددة الوسائط لغرفة العمليات للفهم الدلالي للبيئات الجراحية عالية الكثافة

تُعدّ غرف العمليات (ORs) بيئات معقدة وعالية المخاطر، وتتطلب فهمًا دقيقًا للتفاعلات بين الموظفين الطبيين والأدوات والمعدات لتحسين المساعدة الجراحية وزيادة الوعي المكاني وضمان سلامة المرضى. تعاني المجموعات الحالية من البيانات من نقص في الحجم والواقعية، ولا تلتقط الطبيعة متعددة الوسائط لمشاهد غرف العمليات، مما يحد من التقدم في نمذجة غرف العمليات. وللرد على هذه الفجوة، نقدّم MM-OR، وهي مجموعة بيانات واقعية وعالية الحجم لمشهد غرفة العمليات متعدد الوسائط عبر الزمن، وهي أول مجموعة بيانات تتيح إنشاء رسومات مشهد متعددة الوسائط. تُسجّل MM-OR مشاهد غرفة عمليات شاملة تتضمّن بيانات RGB-D، ومشاهد مقرّبة، وتسجيلات صوتية، ونصوصًا مكتوبة للكلام، وسجلات من الروبوتات، وبيانات تتبع، وتم تسميتها بوضعيات تجزئة بانوبتيك، ورسومات مشهد معنوية، وعلامات مهام تالية. علاوةً على ذلك، نقترح MM2SG، وهي أول نموذج ضخم متعدد الوسائط للرؤية واللغة لإنجاز إنشاء رسومات المشهد، وقد أظهرت تجارب واسعة قدرتها على الاستفادة الفعّالة من المدخلات متعددة الوسائط. وبشكل متكامل، تمثل MM-OR وMM2SG معيارًا جديدًا للفهم الشامل لغرف العمليات، وتفتح الطريق أمام تحليل المشهد متعدد الوسائط في البيئات المعقدة والخاضعة لمخاطر عالية. يمكن الوصول إلى الكود والبيانات عبر الرابط: https://github.com/egeozsoy/MM-OR.