تفكيك طرق التعلم الذاتي لرؤية الحاسوب الجراحية

شهد مجال الرؤية الحاسوبية الجراحية تطورات كبيرة في السنوات الأخيرة مع زيادة شعبية الطرق المستندة إلى الشبكات العصبية العميقة. ومع ذلك، تتطلب الأساليب الإشرافية الكاملة التقليدية لتدريب مثل هذه النماذج كميات هائلة من البيانات المصحوبة بالشروح، مما يفرض تكلفة مرتفعة للغاية؛ خاصة في المجال السريري. تمثل طرق التعلم الذاتي الإشرافي (Self-Supervised Learning - SSL)، التي بدأت في اكتساب الزخم في المجتمع العام للرؤية الحاسوبية، حلاً محتملاً لهذه التكاليف، حيث تسمح بتعلم التمثيلات المفيدة من البيانات غير المصحوبة بالشروح فقط.ومع ذلك، لا تزال فعالية طرق التعلم الذاتي الإشرافي في المجالات الأكثر تعقيدًا وتأثيرًا، مثل الطب والجراحة، محدودة وغير مستكشفة. في هذا العمل، نعالج هذا الاحتياج الحاسم من خلال دراسة أربع طرق متقدمة للتعلم الذاتي الإشرافي (MoCo v2, SimCLR, DINO, SwAV) في سياق الرؤية الحاسوبية الجراحية. نقدم تحليلًا شاملًا لأداء هذه الطرق على مجموعة بيانات Cholec80 فيما يتعلق بمهمتين أساسيتين وشعبيتين في فهم السياق الجراحي: تحديد المرحلة ورصد وجود الأدوات.نفحص معلماتهم، ثم سلوكهم بالنسبة لكميات البيانات التدريبية في إعدادات شبه إشرافية. يؤدي نقل هذه الطرق إلى الجراحة بشكل صحيح كما هو موصوف ومطبق في هذا العمل إلى مكاسب أداء كبيرة تتجاوز الاستخدامات العامة للتعلم الذاتي الإشرافي - يصل إلى 7.4% في تحديد المرحلة و20% في رصد وجود الأدوات - وكذلك أفضل الأساليب شبه الإشرافية لتحديد المرحلة حتى بنسبة 14%. تظهر النتائج الإضافية التي تم الحصول عليها على مجموعة متنوعة عالية من مجموعات بيانات جراحية خصائص عامّة قوية. يمكن الوصول إلى الكود عبر الرابط:https://github.com/CAMMA-public/SelfSupSurg.