HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 7 أيام

المُراجع: ما وراء الانعكاس النصي، نحو الاستدلال الانعكاسي متعدد الوسائط في فهم الفيديو الطويل

Jiaze Li Hao Yin Wenhui Tan Jingyang Chen Boshen Xu Yuxun Qu Yijing Chen Jianzhong Ju Zhenbo Luo Jian Luan

المُراجع: ما وراء الانعكاس النصي، نحو الاستدلال الانعكاسي متعدد الوسائط في فهم الفيديو الطويل

الملخص

آليات التفكير الذاتي التي تعتمد على عمليات إعادة التفكير النصية فقط تؤدي أداءً جيدًا في معظم المهام متعددة الوسائط. ومع ذلك، عند تطبيقها مباشرةً على سيناريوهات فهم الفيديو الطويل، تُظهر قيودًا واضحة. وتنبع الأسباب الجذرية لهذا من نقطتين: (1) ينطوي فهم الفيديو الطويل على مدخلات بصرية أكثر غنىً وديناميكية، ما يعني أن إعادة التفكير في المعلومات النصية وحدها غير كافية، ويجب إجراء عملية إعادة تفكير إضافية مخصصة لمعالجة المعلومات البصرية؛ (2) تفتقر آليات التفكير الذاتي النصية فقط إلى قدرات التفاعل بين الوسائط، مما يمنعها من دمج المعلومات البصرية بشكل كامل أثناء عملية التفكير. مستلهمين من هذه الرؤى، نقترح إطارًا جديدًا يُسمى REVISOR (REflective VIsual Segment Oriented Reasoning)، وهو إطار لتفكير متعدد الوسائط مدعوم بالأدوات. يُمكّن REVISOR النماذج اللغوية والبصرية المتعددة (MLLMs) من بناء عمليات تأملية تعاونية عبر الوسائط النصية والبصرية، مما يعزز بشكل كبير قدرتها على الاستنتاج في سياقات فهم الفيديو الطويل. ولضمان قدرة REVISOR على تعلّم مراجعة أجزاء الفيديو ذات الصلة بشكل دقيق مع السؤال خلال التدريب المعزز، صممنا آلية المكافأة المفصولة ثنائية التخصيص (DADR). وعند دمج هذه الآلية ضمن استراتيجية التدريب GRPO، فإنها تفرض تطابقًا سببيًا بين عملية استنتاج النموذج والدليل المرئي المختارة. ومن الجدير بالذكر أن إطار REVISOR يُحسّن بشكل كبير قدرة MLLMs على فهم الفيديو الطويل دون الحاجة إلى أي تدريب دقيق مُراقب إضافي أو نماذج خارجية، ويحقق نتائج مبهرة على أربع معايير تشمل VideoMME وLongVideoBench وMLVU وLVBench.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
المُراجع: ما وراء الانعكاس النصي، نحو الاستدلال الانعكاسي متعدد الوسائط في فهم الفيديو الطويل | الأوراق البحثية | HyperAI