الملخص

آليات التفكير الذاتي التي تعتمد على عمليات إعادة التفكير النصية فقط تؤدي أداءً جيدًا في معظم المهام متعددة الوسائط. ومع ذلك، عند تطبيقها مباشرةً على سيناريوهات فهم الفيديو الطويل، تُظهر قيودًا واضحة. وتنبع الأسباب الجذرية لهذا من نقطتين: (1) ينطوي فهم الفيديو الطويل على مدخلات بصرية أكثر غنىً وديناميكية، ما يعني أن إعادة التفكير في المعلومات النصية وحدها غير كافية، ويجب إجراء عملية إعادة تفكير إضافية مخصصة لمعالجة المعلومات البصرية؛ (2) تفتقر آليات التفكير الذاتي النصية فقط إلى قدرات التفاعل بين الوسائط، مما يمنعها من دمج المعلومات البصرية بشكل كامل أثناء عملية التفكير. مستلهمين من هذه الرؤى، نقترح إطارًا جديدًا يُسمى REVISOR (REflective VIsual Segment Oriented Reasoning)، وهو إطار لتفكير متعدد الوسائط مدعوم بالأدوات. يُمكّن REVISOR النماذج اللغوية والبصرية المتعددة (MLLMs) من بناء عمليات تأملية تعاونية عبر الوسائط النصية والبصرية، مما يعزز بشكل كبير قدرتها على الاستنتاج في سياقات فهم الفيديو الطويل. ولضمان قدرة REVISOR على تعلّم مراجعة أجزاء الفيديو ذات الصلة بشكل دقيق مع السؤال خلال التدريب المعزز، صممنا آلية المكافأة المفصولة ثنائية التخصيص (DADR). وعند دمج هذه الآلية ضمن استراتيجية التدريب GRPO، فإنها تفرض تطابقًا سببيًا بين عملية استنتاج النموذج والدليل المرئي المختارة. ومن الجدير بالذكر أن إطار REVISOR يُحسّن بشكل كبير قدرة MLLMs على فهم الفيديو الطويل دون الحاجة إلى أي تدريب دقيق مُراقب إضافي أو نماذج خارجية، ويحقق نتائج مبهرة على أربع معايير تشمل VideoMME وLongVideoBench وMLVU وLVBench.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

المُراجع: ما وراء الانعكاس النصي، نحو الاستدلال الانعكاسي متعدد الوسائط في فهم الفيديو الطويل

Jiaze Li Hao Yin Wenhui Tan Jingyang Chen Boshen Xu Yuxun Qu Yijing Chen Jianzhong Ju Zhenbo Luo Jian Luan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

المُراجع: ما وراء الانعكاس النصي، نحو الاستدلال الانعكاسي متعدد الوسائط في فهم الفيديو الطويل

Jiaze Li Hao Yin Wenhui Tan Jingyang Chen Boshen Xu Yuxun Qu Yijing Chen Jianzhong Ju Zhenbo Luo Jian Luan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

المُراجع: ما وراء الانعكاس النصي، نحو الاستدلال الانعكاسي متعدد الوسائط في فهم الفيديو الطويل

Jiaze Li Hao Yin Wenhui Tan Jingyang Chen Boshen Xu Yuxun Qu Yijing Chen Jianzhong Ju Zhenbo Luo Jian Luan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters