HyperAIHyperAI
منذ 17 أيام

كابينيت: تقليل الضوضاء القائم على صلة المحتوى للإجابة عن الأسئلة المتعلقة بالجداول

Sohan Patnaik, Heril Changwal, Milan Aggarwal, Sumit Bhatia, Yaman Kumar, Balaji Krishnamurthy
كابينيت: تقليل الضوضاء القائم على صلة المحتوى للإجابة عن الأسئلة المتعلقة بالجداول
الملخص

تم دراسة قدرة نماذج اللغة الكبيرة (LLMs) على فهم الجداول بشكل واسع من خلال مهمة الإجابة على الأسئلة (QA) المتعلقة بالجداول. عادةً، يُعد جزء صغير فقط من الجدول كاملاً ذا صلة بالاستنتاج للإجابة على سؤال معين. أما الأجزاء غير ذات صلة، فهي تعمل كضوضاء ومعلومات مُربكة، مما يؤدي إلى أداء غير مثالي نظرًا لحساسية نماذج اللغة الكبيرة تجاه الضوضاء. وللتخفيف من هذا التأثير، نقترح إطارًا يُسمى CABINET (Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering)، وهو إطار يمكّن نماذج اللغة الكبيرة من التركيز على البيانات الجدولية ذات الصلة من خلال تقليل المعلومات الزائدة. يتكوّن CABINET من مُقيّم غير مُراقب للصلة (URS)، تم تدريبه بشكل تفاضلي مع نموذج الإجابة على الأسئلة (QA LLM)، والذي يُقيّم محتوى الجدول بناءً على درجة صلته بالسؤال المدخل قبل تقديمه إلى نموذج الإجابة على الأسئلة (QA LLM). ولتعزيز أداء مُقيّم الصلة، يستخدم CABINET وحدة مُدربة بشكل ضعيف تُولّد بيانًا لتحليل الهيكل (parsing statement) يصف معايير الصفوف والأعمدة ذات الصلة بالسؤال، وتحدد محتوى الخلايا المقابلة في الجدول. يتفوّق CABINET بشكل كبير على مختلف النماذج الأساسية لمعالجة الجداول باستخدام LLM، وكذلك على طرق التعلم السياقي المستندة إلى GPT3، ويُظهر مقاومة أعلى للضوضاء، ويُبقي على تفوقه على الجداول بمقاييس مختلفة، ويُحقّق أداءً جديدًا يُعدّ الأفضل في مجاله (SoTA) على مجموعات بيانات WikiTQ وFeTaQA وWikiSQL. نُطلق كودنا وبياناتنا على الرابط التالي: https://github.com/Sohanpatnaik106/CABINET_QA.