HyperAIHyperAI

Command Palette

Search for a command to run...

إطلاق Falcon Perception لتقييم الرؤية الحاسوبية

أعلنت شركة معهد الابتكار التكنولوجي في أبوظبي عن إطلاق Falcon Perception، وهو نموذج ذكاء اصطناعي جديد خفيف الوزن يحتوي على 0.6 مليار معلمة، مصمم للتنفيذ الدقيق للكشف عن الأشياء وتحديد مواقعها في الصور بناءً على أوامر نصية طبيعية. يهدف النموذج إلى تبسيط أنظمة الإدراك البصري من خلال دمج المعالجة البصرية واللغوية في بنية واحدة موحدة بدلاً من الاعتماد على أنظمة مركبة معقدة. يعمل النموذج باستخدام مبدأ "الدمج المبكر"، حيث يعالج رقاقات الصور ورموز النص في تسلسل واحد مشترك باستخدام آلية انتباه هجينة. يسمح هذا التصميم للنموذج بالتحول بين العمل كمشفّر بصري ثنائي الاتجاه وكمولد تلقائي حسب المهمة، مما يحسن الكفاءة والدقة. يستخدم النموذج واجهة تنبؤ هيكلية تسمى "سلسلة الإدراك"، حيث يتنبأ أولاً بإحداثيات المربع المحيط، ثم بأبعاده، وأخيراً بقناع التقسيم الدقيق للصور. تم تدريب النموذج على مجموعة بيانات ضخمة تضم 54 مليون صورة و195 مليون وصف إيجابي، مع التركيز على توازن العينات لتقليل الأخطاء في تحديد وجود الأشياء. أظهرت تجارب Falcon Perception تفوقاً ملحوظاً في معيار SA-Co، حيث حققت درجة Macro-F1 تبلغ 68.0، متقدمة على منافسها القوي SAM 3 الذي حقق 62.3. يبرز الأداء بشكل خاص في المهام التي تتطلب فهم السمات التفصيلية، والمشروبات، والمعدات الرياضية. كما قدم الباحثون معياراً تشخيصياً جديداً يسمى PBench لقياس الأداء عبر مستويات مختلفة من التعقيد اللغوي والبصري، ووجدوا أن النموذج يتفوق بشكل كبير على النماذج الأخرى في المهام التي تتطلب فهم النصوص داخل الصور (OCR) والاستدلال المكاني والعلاقات بين الكائنات. على سبيل المثال، استطاع النموذج تحديد "زجاجات النبيذ رقم 168" بدقة في حين فشل المنافسون، كما تمكن من عزل كائنات محددة بناءً على علاقاتها المكانية المعقدة. إلى جانب نموذج الإدراك، أطلقت الشركة نموذجاً آخر متخصصاً يسمى Falcon OCR، وهو نموذج صغير يحتوي على 0.3 مليار معلمة. يهدف هذا النموذج إلى معالجة المستندات المعقدة التي تحتوي على نصوص مكتوبة بخط اليد، وجداول معقدة، وصيغ رياضية. حقق Falcon OCR نتيجة 80.3 على معيار olmOCR و88.6 على OmniDocBench، متفوقاً على نماذج أكبر بكثير من حيث حجم المعاملات. يتميز هذا النموذج بسرعة استدعاء عالية تصل إلى 5825 رمزاً في الثانية، مما يجعله عملياً للتعامل مع ملايين الصفحات في تطبيقات التحويل الرقمي. يُعد هذا الإنجاز دليلاً على فعالية النهج المبسط القائم على بنية واحدة مقارنة بالأنظمة المعقدة متعددة المكونات. يواصل الباحثون العمل على تطوير هذه التقنيات لتحسين دقة تحديد وجود الأشياء، مع الحفاظ على البساطة والقابلية للتوسع. تتوفر النماذج الآن مفتوحة المصدر للاستخدام، مع دعم شامل لأنظمة التشغيل المختلفة وأدوات الاستضافة السحابية.

الروابط ذات الصلة

Hugging FaceHugging Face