HyperAIHyperAI

Command Palette

Search for a command to run...

REX: تفسير منطقي ومتأصل

Chen Shi ; Zhao Qi

الملخص

الفعالية والقابلية للتفهم هما خصائص أساسيتان لنظم الذكاء الاصطناعي الموثوقة. تركز معظم الدراسات الحديثة في مجال الاستدلال البصري على تحسين دقة الإجابات المتوقعة، مع إيلاء اهتمام أقل لتوضيح الأسباب وراء القرارات. نتيجة لذلك، فإنها غالبًا ما تستفيد من التحيزات الزائفة بدلاً من القيام بالاستدلال الحقيقي على البيانات البصرية-النصية، ولم تطور بعد القدرة على شرح عملية صنع القرار من خلال النظر إلى المعلومات الأساسية من كلا النمطين. يهدف هذا البحث إلى سد هذه الفجوة من ثلاث زوايا مختلفة: أولاً، نحدد نوعًا جديدًا من الشرح متعدد الوسائط الذي يشرح القرارات عن طريق التنقل التدريجي في عملية الاستدلال وتثبيت الكلمات الرئيسية في الصور. نطور برنامجًا وظيفيًا لتنفيذ خطوات الاستدلال المختلفة بشكل متسلسل وإنشاء مجموعة بيانات جديدة تحتوي على 1,040,830 شرحًا متعدد الوسائط. ثانيًا، نحدد الحاجة الحرجة لربط المكونات الهامة بين النمطيْن البصري والنصي بشكل وثيق لشرح القرارات، ونقترح طريقة جديدة لإنشاء الشرح تُظهر صراحةً التوافق الثنائي بين الكلمات ومناطق الاهتمام. هذا يحسن قدرة التثبيت البصري بمقدار كبير، مما يؤدي إلى زيادة القابلية للتفهم وأداء الاستدلال. ثالثاً، باستخدام بياناتنا الجديدة وطرقنا، نقوم بتحليلات موسعة لدراسة فعالية شرحنا في ظروف مختلفة، بما في ذلك التعلم متعدد المهام والتعلم النقل. رمز البرمجيات ومجموعة البيانات متاحة على الرابط:https://github.com/szzexpoi/rex.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp