منذ 2 أشهر

DROP: معيار فهم القراءة المطلوب فيه التفكير المنفصل على الفقرات

Dheeru Dua; Yizhong Wang; Pradeep Dasigi; Gabriel Stanovsky; Sameer Singh; Matt Gardner

الملخص

لقد شهد فهم القراءة تقدمًا سريعًا مؤخرًا، حيث وصلت الأنظمة إلى مستوى الإنسان في أكثر المجموعات البيانات شهرة لهذه المهمة. ومع ذلك، فقد أظهرت العديد من الدراسات هشاشة هذه الأنظمة، مما يدل على أن هناك الكثير من العمل الذي يجب إنجازه. نقدم معيارًا جديدًا لفهم القراءة باللغة الإنجليزية، وهو DROP، والذي يتطلب إجراء استدلال متقطع على محتوى الفقرات (Discrete Reasoning Over the content of Paragraphs). في هذا المعيار الذي تم إنشاؤه بواسطة مجموعة من المستخدمين بشكل معادٍ ويحتوي على 96 ألف سؤال، يجب على النظام حل الإشارات في السؤال، ربما إلى مواقع متعددة في المدخلات، وإجراء عمليات متقطعة عليها (مثل الجمع، العد أو الترتيب). تتطلب هذه العمليات فهمًا شاملًا لمحتوى الفقرات أكثر بكثير مما كان ضروريًا للمجموعات البيانات السابقة. قدمنا طرقًا حديثة من أدبيات فهم القراءة وتحليل المعنى الدلالي على هذا المجموعة البيانات وأظهرنا أن أفضل الأنظمة تحقق فقط نسبة F1 تبلغ 32.7٪ حسب مقياس الدقة العام لدينا، بينما تبلغ نسبة أداء الخبراء البشريين 96.0٪. كما قدم us نموذجًا جديدًا يجمع بين طرق فهم القراءة والاستدلال العددي البسيط لتحقيق نسبة F1 تبلغ 47.0٪.请注意，最后一句中的“us”可能是原文的一个小错误，应该是“we”。因此，更正后的翻译如下：لقد شهد فهم القراءة تقدمًا سريعًا مؤخرًا، حيث وصلت الأنظمة إلى مستوى الإنسان في أكثر المجموعات البيانات شهرة لهذه المهمة. ومع ذلك، فقد أظهرت العديد من الدراسات هشاشة هذه الأنظمة، مما يدل على أن هناك الكثير من العمل الذي يجب إنجازه. نقدم معيارًا جديدًا لفهم القراءة باللغة الإنجليزية، وهو DROP، والذي يتطلب إجراء استدلال متقطع على محتوى الفقرات (Discrete Reasoning Over the content of Paragraphs). في هذا المعيار الذي تم إنشاؤه بواسطة مجموعة من المستخدمين بشكل معادٍ ويحتوي على 96 ألف سؤال، يجب على النظام حل الإشارات في السؤال، ربما إلى مواقع متعددة في المدخلات، وإجراء عمليات متقطعة عليها (مثل الجمع، العد أو الترتيب). تتطلب هذه العمليات فهمًا شاملًا لمحتوى الفقرات أكثر بكثير مما كان ضروريًا للمجموعات البيانات السابقة. قدمنا طرقًا حديثة من أدبيات فهم القراءة وتحليل المعنى الدالي على هذا المجموعة البيانات وأظهرنا أن أفضل الأنظمة تحقق فقط نسبة F1 تبلغ 32.7٪ حسب مقياس الدقة العام لدينا، بينما تبلغ نسبة أداء الخبراء البشريين 96.0٪. كما قدمّا نموذجًا جديدًا يجمع بين طرق فهم القراءة والاستدلال العددي البسيط لتحقيق نسبة F1 تبلغ 47.0٪.