Command Palette
Search for a command to run...
دراسة مقارنة في الذكاء الاصطناعي الجراحي: مجموعات البيانات، والنماذج التأسيسية، والعوائق التي تحول دون تحقيق الذكاء الاصطناعي العام الطبي (Med-AGI)
دراسة مقارنة في الذكاء الاصطناعي الجراحي: مجموعات البيانات، والنماذج التأسيسية، والعوائق التي تحول دون تحقيق الذكاء الاصطناعي العام الطبي (Med-AGI)
الملخص
حقّقت نماذج الذكاء الاصطناعي (AI) الحديثة مؤخرًا أداءً يوازي أو يتفوق على الخبراء البشريين في عدة معايير (benchmarks) لمهام بيومُتِيكية، لكنها لا تزال متخلفة في معايير تحليل الصور الجراحية. ونظرًا لأن الجراحة تتطلب دمج مهام متباينة — بما في ذلك دمج البيانات متعددة الوسائط، والتفاعل البشري، والتأثيرات الفيزيائية — فإن النماذج ذات القدرات العامة قد تكون أداة تعاونية جذابة بشكل خاص إذا تحسّن أداؤها. من ناحية، يُعدّ النهج القياسي المتمثّل في توسيع حجم البنية (architecture size) وحجم بيانات التدريب خيارًا جذابًا، خاصةً مع توليد ملايين الساعات من بيانات الفيديو الجراحي سنويًا. ومن ناحية أخرى، يتطلب إعداد البيانات الجراحية لتدريب نماذج الذكاء الاصطناعي مستويات أعلى بكثير من الخبرة المهنية، كما أن التدريب على هذه البيانات يستلزم موارد حاسوبية باهظة التكلفة. وتشكّل هذه المقايضات صورة غير مؤكدة حول ما إذا كان الذكاء الاصطناعي الحديث قادرًا على دعم الممارسة الجراحية، وإلى أيّ مدى. وفي هذه الورقة، نستكشف هذا السؤال من خلال دراسة حالة للكشف عن الأدوات الجراحية باستخدام أحدث أساليب الذكاء الاصطناعي المتاحة في عام 2026. ونُظهر أنه حتى مع نماذج ذات مليارات المعاملات (parameters) وتدريب مكثّف، فإن نماذج الرؤية واللغة (Vision Language Models) الحالية لا تزال تقصر في مهمة كشف الأدوات في جراحة الأعصاب التي تبدو بسيطة. علاوة على ذلك، نعرض تجارب توسيع (scaling experiments) تشير إلى أن زيادة حجم النموذج ووقت التدريب تؤدي فقط إلى تحسينات متناقصة في مقاييس الأداء ذات الصلة. وبالتالي، فإن تجاربنا تُشير إلى أن النماذج الحالية قد لا تزال تواجه عقبات كبيرة في حالات الاستخدام الجراحي. وعلاوة على ذلك، لا يمكن إزالة بعض هذه العقبات ببساطة عبر زيادة القدرة الحاسوبية (compute)، وهي تستمر عبر معماريات نماذج متنوعة، ما يثير السؤال عما إذا كان توفر البيانات والتسميات (labels) هو العامل المحدد الوحيد. ونناقش في هذه الورقة المساهمات الرئيسية في هذه القيود، ونقدّم حلولًا محتملة.
One-sentence Summary
Researchers from Chicago Booth and the Surgical Data Science Collective demonstrate that scaling Vision Language Models fails to solve surgical tool detection, revealing that specialized architectures like YOLOv12-m significantly outperform billion-parameter systems in neurosurgery and laparoscopy despite massive computational investment.
Key Contributions
- The paper evaluates zero-shot surgical tool detection across 19 open-weight Vision Language Models on the SDSC-EEA neurosurgical dataset, revealing that despite increased model scale, only one model marginally exceeds the majority class baseline.
- A specialized classification head replacing off-the-shelf JSON generation is introduced for fine-tuned Gemma 3 27B, achieving 51.08% exact match accuracy and outperforming the baseline and standard fine-tuning approaches.
- Experiments demonstrate that a specialized 26M-parameter YOLOv12-m model achieves 54.73% exact match accuracy, outperforming all tested Vision Language Models while using 1,000 times fewer parameters and generalizing effectively to the CholecT50 laparoscopic dataset.
Introduction
Surgical AI aims to create collaborative tools capable of integrating multimodal data and physical effects to assist in complex procedures, yet current systems struggle to match human performance on surgical image-analysis benchmarks. While the prevailing scaling hypothesis suggests that increasing model size and training data will solve these issues, prior work faces significant challenges including the high cost of data annotation, the need for specialized expertise, and the risk that simply adding compute cannot overcome domain-specific distribution shifts. The authors leverage a case study on surgical tool detection to demonstrate that even multi-billion parameter Vision Language Models fail to surpass trivial baselines in zero-shot settings and show diminishing returns when scaled, ultimately proving that specialized, smaller models like YOLOv12-m outperform large foundation models with far fewer parameters.

Dataset
-
Dataset Composition and Sources: The authors utilize the SDSC-EEA dataset, which contains 67,634 annotated frames extracted from 66 unique endoscopic endonasal approach (EEA) neurosurgical procedures. These video recordings were donated by 10 surgeons across 7 institutions in the United States, France, and Spain, with no exclusion criteria applied to the selection.
-
Key Details for Each Subset:
- Annotation Quality: Ground truth labels for 31 distinct surgical instrument classes were generated by three non-clinical annotators, reviewed by a senior annotator and SDSC members, with fewer than 10% of frames requiring correction.
- Format and Distribution: Annotations are provided in YOLO format with bounding boxes. The dataset shows significant class imbalance, with Suction appearing in 63.3% of frames, while other tools like Cotton Patty and Grasper appear less frequently.
- Split Strategy: To prevent data leakage, the data is split by surgical procedure rather than individual frames. This results in a training set of 47,618 frames from 53 procedures and a validation set of 20,016 frames from 13 procedures.
-
Usage in the Model:
- Fine-tuning: The training split is used for LoRA fine-tuning of the Vision-Language Model (VLM).
- Zero-Shot Evaluation: The authors evaluate zero-shot VLM performance using a specific prompt template that lists all 31 valid tool names and requires the model to return detected tools in a strict JSON format.
- External Validation: The methodology includes validation on the external CholecT50 dataset to assess generalizability.
-
Processing and Metadata Details:
- Data Leakage Prevention: The procedure-level split ensures that frames from the same surgery never appear in both training and validation sets, leading to uneven tool distributions across splits (e.g., the Sonopet pineapple tip appears only in the training set).
- Labeling Protocol: Annotators received tool descriptions and representative images prior to labeling to ensure consistency, and the final dataset includes multi-label ground truth indicating the presence or absence of instruments in each frame.
Experiment
- Zero-shot evaluation of 19 open-weight vision-language models across two years of development shows that even the largest models fail to surpass a trivial majority class baseline for surgical tool detection, indicating that general multimodal benchmark performance does not transfer to specialized surgical perception.
- Fine-tuning with LoRA adapters improves performance over zero-shot baselines, with a dedicated classification head outperforming autoregressive JSON generation, yet a persistent gap between training and validation accuracy reveals limited generalization to held-out procedures.
- Scaling LoRA adapter rank by nearly three orders of magnitude saturates training accuracy near 99% while validation accuracy remains below 40%, demonstrating that the performance bottleneck is caused by distribution shift rather than insufficient model capacity.
- A specialized 26M-parameter object detection model (YOLOv12-m) outperforms all fine-tuned vision-language models on the primary dataset while using over 1,000 times fewer parameters, suggesting that task-specific data and architecture are more critical than model scale.
- Replication on an independent laparoscopic dataset (CholecT50) confirms that zero-shot performance remains poor, fine-tuning is necessary for high accuracy, and smaller specialized models continue to outperform large foundation models, including proprietary frontier systems.
- The overall findings suggest that progress in surgical AI is currently constrained by the availability of large-scale, standardized domain-specific data rather than the scale of AI architectures, pointing toward hybrid systems that combine generalist models with specialized perception modules.