ClipTagger-12b يُطلق نموذجًا مُحدثًا للتحليل المرئي يتفوق على Claude 4 وGPT-4.1 بتكلفة أقل بـ17 مرة
أعلنت شركتا Grass وInference.net عن إطلاق نموذج جديد للتحليل التلقائي للفيديوهات يُدعى ClipTagger-12b، والذي يتفوق في الأداء على نماذج مثل Claude 4 وGPT-4.1 من حيث دقة التصنيف والتوثيق، مع تقليل التكاليف بنسبة تصل إلى 17 مرة. يُعد هذا النموذج خطوة مهمة نحو جعل التعلم الآلي من البيانات الحقيقية في العالم ممكنًا على نطاق واسع وبتكلفة منخفضة. تم تدريب ClipTagger-12b على مجموعة بيانات فيديو ضخمة تضم أكثر من مليار مقطع تم جمعها من الإنترنت العام عبر منصة Grass، وهي منصة تتيح للمستخدمين مشاركة اتصال الإنترنت غير المستخدم، مما يساهم في بناء شبكة عالمية لجمع البيانات الحقيقية. وتم تدريب النموذج بواسطة Inference.net على منصتها الموزعة للحسابات، التي تتيح تشغيل النماذج على نطاق واسع دون الاعتماد على مراكز بيانات مركزية. يُستخدم النموذج في تحليل الفيديوهات لتحديد الأفعال، والكائنات، والشعارات بدقة عالية، مما يجعله أداة قوية في مجالات متعددة مثل السيارات ذاتية القيادة، والروبوتات في المستودعات، ونظم الرؤية الحاسوبية. وقد أظهر النموذج أداءً متميزًا في الاختبارات المعيارية، خصوصًا في مقاييس مثل ROUGE وBLEU، وهي مؤشرات تقيس دقة وتوافق النصوص الناتجة عن التحليل. يُمكن للباحثين والمبرمجين الوصول إلى النموذج عبر واجهة برمجة التطبيقات (API) على منصة Inference.net، كما أن أوزان النموذج وموارد التطوير متاحة عبر منصة Hugging Face. كما تقدم الشركة خيارًا للباحثين للتقدم بطلب للحصول على تمويل يصل إلى 10,000 دولار من خلال برنامج التمويل الخاص بها. يُعتبر هذا التعاون نموذجًا يُظهر كيف يمكن لفرق متخصصة، بخلاف المختبرات الكبرى، بناء نماذج ذكاء اصطناعي عالية الأداء باستخدام بيانات حقيقية وهندسة متطورة. ويُعدّ هذا التطور جزءًا من رؤية أوسع حول بناء بنية تحتية مفتوحة ومستدامة للذكاء الاصطناعي، تُعتمد على الإنترنت المفتوح كمصدر أساسي للبيانات. يؤكد سام هوغان، المدير التنفيذي لـ Inference.net، أن "من الممكن تمامًا تدريب نماذج متطورة وذات تكلفة منخفضة، إذا توفرت البيانات المناسبة والهندسة الجيدة". أما أندريج رادونجيك، المدير التنفيذي لشركة Wynd Labs، فيرى أن "مستقبل الذكاء الاصطناعي يعتمد على الحفاظ على فتح الإنترنت، وبناء البنية التحتية التي تُحوّل هذا الإنترنت إلى مصادر تعلم فعالة". مع إطلاق ClipTagger-12b، تفتح المجال أمام مطورين وأعمال صغيرة لاستخدام تقنيات متقدمة في تحليل الفيديو، مما يعزز الابتكار ويسرع من تطوير حلول ذكية في مجالات متعددة.