HyperAIHyperAI
منذ 2 أشهر

tasksource: إطار متناسق للبيانات لتسهيل تعلم وتقدير متعدد المهام في معالجة اللغة الطبيعية

Damien Sileo
tasksource: إطار متناسق للبيانات لتسهيل تعلم وتقدير متعدد المهام في معالجة اللغة الطبيعية
الملخص

يُضِيفُ مركزُ مجموعات البيانات (HuggingFace Datasets Hub) فرصًا مثيرةً لتدريب وتقييم نماذج اللغة، حيث يُستَضَافُ فيه آلاف المجموعات的数据集. 然而,针对特定任务类型的数据库通常具有不同的模式,这使得数据的协调变得困难。多任务训练或评估需要手动工作来将数据适配到任务模板中。多个项目独立地解决了这个问题,通过发布协调后的数据集或提供协调代码以预处理数据集,使其格式一致。我们从以往的预处理工作中识别出了一些模式,例如列名映射和从列中的结构化数据中提取特定子字段。随后,我们提出了一种结构化的注释框架,确保我们的注释完全公开,而不是隐藏在非结构化的代码中。我们发布了适用于500多个英语任务的数据集注释框架和数据集注释(https://github.com/sileod/tasksource)。这些注释包括元数据,如所有数据集中要用作输入或标签的列名,无论是否使用我们的框架,这都可以为未来的数据集预处理节省时间。我们在所有tasksource任务上对一个多任务文本编码器进行了微调,在外部评估中超越了所有公开可用的同规模文本编码器。为了更符合阿拉伯语的表达习惯和语言风格,请允许我稍作调整:مركز مجموعات البيانات الخاص بـ HuggingFace يستضيف آلاف المجموعات، مما يوفر فرصًا مثيرةً لتدريب وتقييم نماذج اللغة. ومع ذلك، غالبًا ما تتميز مجموعات البيانات الخاصة بمهمة معينة بأنماط مختلفة، مما يجعل عملية التنسيق صعبة. يتطلب التدريب أو التقييم متعدد المهام عملًا يدويًا لتوافق البيانات مع قوالب المهام. تعمل عدة مبادرات بشكل مستقل على حل هذه المشكلة من خلال إصدار مجموعات بيانات منسقة أو توفير أكواد تنسيق لمعالجة مجموعات البيانات وجعلها بصيغة متسقة. قدّمنا أنماطاً عبر جهود المعالجة السابقة، مثل تعيين اسم العمود واستخراج حقول فرعية معينة من البيانات المنظمة في عمود. ثم اقترحنا إطار عمل للشروح البنيوية يضمن كشف شروحنا بالكامل وعدم إخفائها داخل الأكواد غير البنيوية. أصدرنا إطار العمل هذا والشروح لمجموعة بيانات تضم أكثر من 500 مهمة باللغة الإنجليزية (https://github.com/sileod/tasksource). تتضمن هذه الشروح بيانات وصفية مثل أسماء الأعمدة التي سيتم استخدامها كمدخلات أو علامات لكل المجموعات، مما يمكن أن يوفّر الوقت للمعالجة المستقبلية لمجموعات البيانات بغض النظر عن استخدام إطار العمل الخاص بنا أم لا. قمنا بضبط نموذج ترميز النص متعدد المهام على جميع مهمّات tasksource، وأظهرت النتائج تفوقه على كل نموذج ترميز نص عام ومتاح للجمهور بنفس الحجم في تقييم خارجي.请注意,在上面的翻译中,“数据中心”被翻译为“مركز”,但更准确的翻译应该是“مركز استضافة”或者“مركز تخزين”;然而,在科技文献中,“Hub”一词通常直接保留为英文,并加上适当的阿拉伯语解释。因此,在这里我选择了直接保留“Hub”。同时,“微调”被翻译为“ضبط”,这是在机器学习领域常用的术语之一。再次调整后:يُضِيفُ مركزُ مجموعات البيانات (HuggingFace Datasets Hub) فرصًا مثيرةً لتدريب وتقييم نماذج اللغة، حيث يستضيف فيه آلاف المجموعات. ومع ذلك، غالبًا ما تكون مجموعات البيانات الخاصة بمهمة معينة ذات أنماط مختلفة، مما يجعل عملية التنسيق صعبة. يتطلب التدريب أو التقييم متعدد المهام عملًا يدويًا لتكييف البيانات مع قوالب المهام. تعمل عدة مبادرات بشكل مستقل على حل هذه المشكلة من خلال إصدار مجموعات بيانات منسقة أو توفير أكواد تنسيق لمعالجة مجموعات البيانات وجعلها بصيغة واحدة ومتسقة. قدّمنا أنماطاً عبر جهود المعالجة السابقة، مثل تعيين اسم العمود واستخراج حقول فرعية معينة من البيانات المنظمة في العمود. ثم اقترحنا إطار عمل للشروح البنيوية يضمن كشف شروحنا بالكامل وعدم إخفائها داخل الأكواد غير البنيوية. أصدرنا إطار العمل هذا والشروح لمجموعة بيانات تضم أكثر من 500 مهمة باللغة الإنجليزية (https://github.com/sileod/tasksource). تتضمن هذه الشروح بيانات وصفية مثل أسماء الأعمدة التي سيتم استخدامها كمدخلات أو علامات لكل المجموعات، مما يمكن أن يوفّر الوقت للمعالجة المستقبلية لمجموعات البيانات بغض النظر عن استخدام إطار العمل الخاص بنا أم لا. قمنا بضبط نموذج ترميز النص متعدد المهام على جميع مهمّات tasksource، وأظهرت النتائج تفوقه على كل نموذج ترميز نص عام ومتاح للجمهور بنفس الحجم في التقييم الخارجي.希望这次翻译更加符合您的要求。如果有任何进一步的修改建议,请随时告知!

tasksource: إطار متناسق للبيانات لتسهيل تعلم وتقدير متعدد المهام في معالجة اللغة الطبيعية | أحدث الأوراق البحثية | HyperAI