HyperAIHyperAI
منذ 2 أشهر

هل يمكننا تحقيق نجاح كبير في تحليل الخطاب باستخدام النماذج اللغوية الكبيرة؟

Aru Maekawa; Tsutomu Hirao; Hidetaka Kamigaito; Manabu Okumura
هل يمكننا تحقيق نجاح كبير في تحليل الخطاب باستخدام النماذج اللغوية الكبيرة؟
الملخص

في الآونة الأخيرة، أثرت نماذج اللغة الكبيرة المدربة مسبقًا التي تعتمد فقط على فك التشفير (LLMs)، والتي تحتوي على عدة تريليونات من المعلمات، بشكل كبير في مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). رغم أن النماذج المدربة مسبقًا التي تعتمد فقط على الترميز أو تلك التي تجمع بين الترميز وفك التشفير قد أثبتت فعاليتها في تحليل الخطاب، فإن مدى قدرة نماذج LLMs على أداء هذه المهمة لا يزال سؤال بحثي مفتوح. لذلك، يستكشف هذا البحث مدى الفائدة التي يمكن أن توفرها مثل هذه النماذج لتحليل الخطاب وفقًا لنظرية البنية البديعية (RST). هنا، يتم تحويل عملية التحليل لكل من الاستراتيجيات الأساسية الرأسية والأسفلية إلى دوافع يمكن لنماذج LLMs التعامل معها. نحن نستخدم Llama 2 ونقوم بضبطها الدقيق باستخدام QLoRA، وهي تحتوي على عدد أقل من المعلمات القابلة للضبط. أظهرت النتائج التجريبية على ثلاثة مجموعات بيانات مرجعية هي RST-DT وInstr-DT وGUM corpus أن Llama 2 ذات الـ 70 تريليون معلمة في الاستراتيجية الأسفلية حققت نتائجًا رائدة (SOTA) مع اختلافات كبيرة. بالإضافة إلى ذلك، أثبتت محركات التحليل لدينا قابلية للتعميم عند تقييمها على RST-DT، مما يدل على أنها رغم تدريبها باستخدام GUM corpus حصلت على أداء مشابه لأداء المحركات الموجودة التي تم تدريبها باستخدام RST-DT.

هل يمكننا تحقيق نجاح كبير في تحليل الخطاب باستخدام النماذج اللغوية الكبيرة؟ | أحدث الأوراق البحثية | HyperAI