HyperAIHyperAI

Command Palette

Search for a command to run...

النماذج اللغوية الكبيرة هي مُفكِّران زمنيان وعلّيّان في إجابة الأسئلة المتعلقة بالفيديوهات

Dohwan Ko Ji Soo Lee Wooyoung Kang Byungseok Roh Hyunwoo J. Kim

الملخص

أظهرت النماذج اللغوية الكبيرة (LLMs) أداءً متميزًا في مجموعة واسعة من مهام فهم اللغة الطبيعية وإنشائها. لاحظنا أن النماذج اللغوية الكبيرة توفر معلومات أولية فعالة في استغلال "الطرق المختصرة اللغوية" للاستدلال الزمني والسببية في مهام الإجابة على الأسئلة المرتبطة بالفيديوهات (VideoQA). ومع ذلك، غالبًا ما تؤدي هذه المعلومات الأولية إلى نتائج غير مثالية في مهام VideoQA، حيث تُدفع النماذج إلى الاعتماد المفرط على الأسئلة، أي ما يُعرف بـ"التحيّز اللغوي"، مع تجاهل المحتوى البصري. ويُعرف هذا الظاهرة أيضًا بـ"التكهنات غير المدعومة" أو "الهلوسة". ولحل هذه المشكلة مع الاستفادة من المعلومات الأولية التي توفرها النماذج اللغوية الكبيرة في مهام VideoQA، نقترح إطارًا جديدًا يُسمى Flipped-VQA، والذي يشجع النموذج على التنبؤ بجميع التوافيق الممكنة للثلاثيات (\langle)V, Q, A(\rangle) من خلال عكس زوج المصدر والعلامة المستهدفة لفهم علاقاتها المعقدة، أي التنبؤ بالجواب (A)، والسؤال (Q)، والفيديو (V) عند إعطائه أزواجًا من (VQ)، (VA)، و(QA) على التوالي. في هذه الورقة، نطور نموذج LLaMA-VQA من خلال تطبيق إطار Flipped-VQA على LLaMA، وقد أظهر أداءً أفضل من النماذج القائمة على LLMs والنموذج غير القائمة على LLMs في خمسة معايير صعبة لمهام VideoQA. علاوةً على ذلك، يُعد إطار Flipped-VQA إطارًا عامًا يمكن تطبيقه على مختلف النماذج اللغوية الكبيرة (مثل OPT وGPT-J)، ويعزز أداءها باستمرار. ونُثبت تجريبيًا أن Flipped-VQA لا يعزز فقط استغلال الطرق المختصرة اللغوية، بل يُخفف أيضًا من التحيّز اللغوي الذي يؤدي إلى إجابات خاطئة تعتمد بشكل مفرط على السؤال. يمكن الوصول إلى الكود عبر الرابط: https://github.com/mlvlab/Flipped-VQA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp