النماذج اللغوية الكبيرة هي مُفكِّران زمنيان وعلّيّان في إجابة الأسئلة المتعلقة بالفيديوهات

أظهرت النماذج اللغوية الكبيرة (LLMs) أداءً متميزًا في مجموعة واسعة من مهام فهم اللغة الطبيعية وإنشائها. لاحظنا أن النماذج اللغوية الكبيرة توفر معلومات أولية فعالة في استغلال "الطرق المختصرة اللغوية" للاستدلال الزمني والسببية في مهام الإجابة على الأسئلة المرتبطة بالفيديوهات (VideoQA). ومع ذلك، غالبًا ما تؤدي هذه المعلومات الأولية إلى نتائج غير مثالية في مهام VideoQA، حيث تُدفع النماذج إلى الاعتماد المفرط على الأسئلة، أي ما يُعرف بـ"التحيّز اللغوي"، مع تجاهل المحتوى البصري. ويُعرف هذا الظاهرة أيضًا بـ"التكهنات غير المدعومة" أو "الهلوسة". ولحل هذه المشكلة مع الاستفادة من المعلومات الأولية التي توفرها النماذج اللغوية الكبيرة في مهام VideoQA، نقترح إطارًا جديدًا يُسمى Flipped-VQA، والذي يشجع النموذج على التنبؤ بجميع التوافيق الممكنة للثلاثيات (\langle)V, Q, A(\rangle) من خلال عكس زوج المصدر والعلامة المستهدفة لفهم علاقاتها المعقدة، أي التنبؤ بالجواب (A)، والسؤال (Q)، والفيديو (V) عند إعطائه أزواجًا من (VQ)، (VA)، و(QA) على التوالي. في هذه الورقة، نطور نموذج LLaMA-VQA من خلال تطبيق إطار Flipped-VQA على LLaMA، وقد أظهر أداءً أفضل من النماذج القائمة على LLMs والنموذج غير القائمة على LLMs في خمسة معايير صعبة لمهام VideoQA. علاوةً على ذلك، يُعد إطار Flipped-VQA إطارًا عامًا يمكن تطبيقه على مختلف النماذج اللغوية الكبيرة (مثل OPT وGPT-J)، ويعزز أداءها باستمرار. ونُثبت تجريبيًا أن Flipped-VQA لا يعزز فقط استغلال الطرق المختصرة اللغوية، بل يُخفف أيضًا من التحيّز اللغوي الذي يؤدي إلى إجابات خاطئة تعتمد بشكل مفرط على السؤال. يمكن الوصول إلى الكود عبر الرابط: https://github.com/mlvlab/Flipped-VQA.