
الملخص
يُعد التفسير الموثوق للبيانات متعددة الوسائط في طب الأسنان أمراً ضرورياً للرعاية الشفوية الآلية، إلا أن النماذج الكبيرة للغة متعددة الوسائط (MLLMs) الحالية تواجه صعوبات في استيعاب التفاصيل البصرية الدقيقة المتعلقة بالأسنان، كما تعاني من قلة القدرة على الاستدلال الكافي لتشخيص دقيق. ولحل هذه القيود، نقدّم "DentalGPT"، وهو نموذج مخصص لـ MLLM في مجال طب الأسنان، تم تطويره من خلال دمج معرفة متخصصة عالية الجودة وتعلم التقوية (reinforcement learning). وبشكل محدد، تم بناء أكبر مجموعة بيانات مُعلَّمة متعددة الوسائط في مجال طب الأسنان حتى الآن، من خلال تجميع أكثر من 120 ألف صورة سنية مزودة بوصف تفصيلي يُبرز الميزات البصرية ذات الصلة بالتشخيص، مما يجعلها المجموعة الأكثر شمولاً من حيث عدد الصور السنية المُجمّعة حتى الآن. وعند تدريب النموذج على هذه المجموعة، يُحسَّن بشكل كبير فهمه البصري للحالات السنية، بينما يعزز المرحلة اللاحقة من التعلم التقويمي قدرته على التفكير المركب متعدد الوسائط. وتشير التقييمات الشاملة على معايير داخل الفم وصور الأشعة السنية الشاملة، فضلاً عن مجموعات فرعية من معايير التساؤلات الطبية المتعددة الوسائط (Medical VQA)، إلى أن DentalGPT يحقق أداءً متفوقاً في مهام تصنيف الأمراض وتحليل الأسئلة المتعلقة بالأسنان، متفوّقاً على العديد من النماذج المتقدمة الأخرى رغم امتلاكه فقط 7 مليار معلمة. وتُظهر هذه النتائج أن الجمع بين بيانات سنية عالية الجودة ومرحلة التكييف المُتسلسلة يُمثّل مساراً فعّالاً لبناء نماذج MLLM قادرة ومتخصصة في مجال طب الأسنان.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.