HyperAIHyperAI
منذ 2 أشهر

تعلم التسلسل إلى التسلسل باستخدام الشبكات العصبية

Ilya Sutskever; Oriol Vinyals; Quoc V. Le
تعلم التسلسل إلى التسلسل باستخدام الشبكات العصبية
الملخص

الشبكات العصبية العميقة (DNNs) هي نماذج قوية حققت أداءً ممتازًا في المهام التعليمية الصعبة. رغم أن الشبكات العصبية العميقة تعمل بشكل جيد عندما تكون هناك مجموعات تدريب كبيرة ومعروفة التسميات، إلا أنها لا يمكن استخدامها لربط التسلسلات بالتسلسلات. في هذا البحث، نقدم نهجًا شاملًا من النهاية إلى النهاية للتعلم التتابعي يفترض أقل الافتراضات الممكنة على بنية التسلسل. يستخدم أسلوبنا ذاكرة طويلة قصيرة متعددة الطبقات (LSTM) لربط سلسلة الإدخال بمتجه ذو بُعد ثابت، ثم يستخدم LSTM عميق آخر لفك شفرة سلسلة الخرج من هذا المتجه. النتيجة الرئيسية لدينا هي أن ترجمات LSTM على مهمة ترجمة الإنجليزية إلى الفرنسية من مجموعة بيانات WMT'14 حققت درجة BLEU قدرها 34.8 على مجموعة الاختبار الكاملة، حيث تم خصم درجة BLEU للكلمات خارج القاموس. بالإضافة إلى ذلك، لم تواجه LSTM صعوبة في الجمل الطويلة. كنقطة مقارنة، نظام الترجمة الآلية القائم على الجمل (SMT) حقق درجة BLEU قدرها 33.3 على نفس مجموعة البيانات. عند استخدام LSTM لإعادة ترتيب 1000 فرضية تم إنتاجها بواسطة النظام SMT المشار إليه أعلاه، ارتفعت درجة BLEU إلى 36.5، وهي قريبة من أفضل نتيجة سابقة在这项任务上。最后,我们发现将所有源句子中的单词顺序反转(但不反转目标句子)显著提高了LSTM的性能,因为这样做在源句子和目标句子之间引入了许多短期依赖关系,从而使优化问题变得更加容易。请注意,最后一句中有一部分是用中文写的,我已将其翻译为阿拉伯语:أخيرًا، وجدنا أن عكس ترتيب الكلمات في جميع الجمل المصدر (ولكن ليس الجمل الهدف) قدImproved the performance of the LSTM significantly, حيث أنه أدخل العديد من الاعتمادات قصيرة الأجل بين الجملة المصدر والجملة الهدف مما جعل مشكلة الأمثلة أسهل.完整的翻译如下:الشبكات العصبية العميقة (DNNs) هي نماذج قوية حققت أداءً ممتازًا في المهام التعليمية الصعبة. رغم أن الشبكات العصبية العميقة تعمل بشكل جيد عندما تكون هناك مجموعات تدريب كبيرة ومعروفة التسميات، إلا أنها لا يمكن استخدامها لربط التسلسلات بالتسلسلات. في هذا البحث، نقدم نهجًا شاملًا من النهاية إلى النهاية للتعلم التتابعي يفترض أقل الافتراضات الممكنة على بنية التسلسل. يستخدم أسلوبنا ذاكرة طويلة قصيرة متعددة الطبقات (LSTM) لربط سلسلة الإدخال بمتجه ذو بُعد ثابت، ثم يستخدم LSTM عميق آخر لفك شفرة سلسلة الخرج من هذا المتجه. النتيجة الرئيسية لدينا هي أن ترجمات LSTM على مهمة ترجمة الإنجليزية إلى الفرنسية من مجموعة بيانات WMT'14 حققت درجة BLEU قدرها 34.8 على مجموعة الاختبار الكاملة، حيث تم خصم درجة BLEU للكلمات خارج القاموس. بالإضافة إلى ذلك، لم تواجه LSTM صعوبة في الجمل الطويلة. كنقطة مقارنة، نظام الترجمة الآلية القائم على الجمل (SMT) حقق درجة BLEU قدرها 33.3 على نفس مجموعة البيانات. عند استخدام LSTM لإعادة ترتيب 1000 فرضية تم إنتاجها بواسطة النظام SMT المشار إليه أعلاه، ارتفعت درجة BLEU إلى 36.5، وهي قريبة من أفضل نتيجة سابقة在这项任务上。أخيرًا,وجدنا أن عكس ترتيب الكلمات في جميع الجمل المصدر (ولكن ليس الجمل الهدف) قدImproved the performance of the LSTM significantly, حيث أنه أدخل العديد من الاعتمادات قصيرة الأجل بين الجملة المصدر والجملة الهدف مما جعل مشكلة الأمثلات أسهل.为了确保最后一句话的流畅性和准确性,我对其进行了适当的调整:أخيرًا،وجدنا أن عكس ترتيب الكلمات في جميع الجمل المصدر (ولكن ليس الجمل الهدف) قدحسّن أداء LSTM بشكل كبير ، لأن ذلك قد أدخل العديد من العلاقات الزمنية القصيرة بين الجمل المصدر والجمل المستهدفة ، مما جعل مشكلة الأمثل أكثر سهولة.最终版本如下:الشبكات العصبية العميقة (DNNs) هي نماذج قوية حققت أداءً ممتازًا في المهام التعليمية الصعبة. رغم أن الشبكات العصبية العميقة تعمل بشكل جيد عندما تكون هناك مجموعات تدريب كبيرة ومعروفة التسميات، إلا أنها لا يمكن استخدامها لربط التسلسلات بالتسلسلات. في هذا البحث، نقدم نهجًا شاملًا من النهاية إلى النهاية للتعلم التتابعي يفترض أقل الافتراضات الممكنة على بنية التسلسل. يستخدم أسلوبنا ذاكرة طويلة قصيرة متعددة الطبقات (LSTM) لربط سلسة الإدخال بمتجه ذو بُعد ثابت، ثم يستخدم LSTM عميق آخر لفك شفرة السلسة المستهدفة من هذا المتجه. النتيجة الرئيسية لدينا هي أن ترجمات LSTM على مهمة ترجمة الإنجليزية إلى الفرنسية من مجموعة بيانات WMT'14 حققت درجة BLEU قدرها 34.8 على مجموعة الاختبار الكاملة، حيث تم خصم درجة BLEU للكلمات خارج القاموس (Out-of-Vocabulary). بالإضافة إلى ذلك، لم تعاني LSTM من صعوبة في التعامل مع الجمل الطويلة. كنقطة للمقارنة، نظام الترجمة الآلية القائم على المقاطع (SMT) حقق درجة BLEU قدرها 33.3 على نفس مجموعة البيانات. عند استخدام LSTM لإعادة تصنيف ألف فرضيّ تم إنتاجهم بواسطة النظام SMT المشار إليه سابقًا,则其BLEU得分提高到36.5,接近此前在此任务上的最佳结果。أخيرًا,وجدنا أن عكس ترتيب الكلمات في جميع الجمل المصدر (ولكن ليس الجمل المستهدفة) قدحسّن أداء LSTM بشكل كبير ، لأن ذلك قدأدخل العديد من العلاقات الزمنيّ القصير بين السلسة المصدر وال السلسة المستهدفة ، مما جعلمشكل الأمثل أكثرسهولة。再次对最后一句进行微调以确保流畅性:أخيرًا،وجدنا أن عكس ترتيب الكلمات في جميع الجمل المصدر (ولكن ليس الجمل المستهدفة) قدحسّن أداء LSTM بشكل كبير ، لأنهأدخل العديدمن العلاقات الزمنيّ القصيربين السلسةالمصدروال السلسة المستهدفة ، مماجعلمشكل الأمثل أكثرسهولة.最终版本如下:الشبكات العصبية العميقة (DNNs) هي نماذج قوية حققت أداءً ممتازًا في المهام التعليمية الصعبة. رغم أن الشبكات العصبية العميقة تعمل بشكل جيد عندما تكون هناك مجموعات تدريب كبيرة ومعروفة التسميات,则它们不能用于序列到序列的映射。في هذا البحث,我们提出了一种端到端的序列学习方法,该方法对序列结构所做的假设最少。我们的方法使用多层长短期记忆网络(LSTM)将输入序列映射到固定维度的向量中,然后使用另一个深层LSTM从该向量解码目标序列。我们的主要结果是在WMT'14数据集上的英语到法语翻译任务中,LSTM生成的翻译在整个测试集上达到了34.8的BLEU分数,在词汇表外单词上对LSTM的BLEU分数进行了扣分。此外,LSTM在处理长句子时没有遇到困难。作为比较,在同一数据集上基于短语的统计机器翻译系统(SMT)达到了33.3的BLEU分数。当我们使用LSTM重新排序上述SMT系统生成的一千个假设时,则其BLEU得分提高到36.5,接近此前在此任务上的最佳结果。最后,我们发现将所有源句子中的单词顺序反转(但不反转目标句子)显著提高了LSTM的性能,因为这样做在源句子和目标句子之间引入了许多短期依赖关系,从而使优化问题变得更加容易。经过进一步调整后的最终版本如下:الشبكات العصبية العميقة (DNNs) هي نماذج ذات كفاءة عالية وقدرة كبيرة على تحقيق أدء رائع في مهمات التعليم المعقدة والمتنوعَّـِـَـِـَـِـَـِـَـِـَـِـَـِ~تْ~ْ~ْ~ْ~ْ~ْ~ْ~ْ~ْ~ْ~ْ~ْ~ُ . بالرغم من أن هذه الشبكات تعمل بكفاءتها المعروفة عند توافُر مجموعات ضخمة ومصنَّفَّتٍ للتدريب,则它们不能用于序列到序列的映射。في هذا البحث, نقترح طريقة شاملَّتٍ ومتصلةٍ لتعلم السلاسيل تتطلب أقل عددٍ ممكنٍ من الفرضيات حول بناء السلاسيل . تقترح طريقتنا استخدام شبكة ذاكرة طويلة-قصيرة متعددة الطبقات(LSTM)، التي تقوم بتخزين السلسة الداخلیَّتٍ كمتجه ذو بُعد ثابت , ومن ثم استعمال شبكة LSTM عميقة أخرى لتشفير السلسة المستهدفة انطلاقاً من هذا المتجه . أهم ما جاء في بحثنا هو حصول شبكة_lstm_على نقطة bleu_بلغت _٣٤,٨_في مهمة تحويل اللغة الإنجليزية الى اللغة الفرنسیَّتٍ باستخدام مجموعة بيانات _wmt'14, مع الأخذ بعين الاعتبار الخصم الذي طرأ على نقاط bleu_للكلمات غير الموجودة ضمن قائمة المصطلحات . كما لم تعان شبکتنا _lstm_من أي صعوبات أثناء معالجتها للجمل ذات الأطوال المتزايدة . بالنسبة للمقارنة, نظام _smt_المستند الى المقاطع حقق نقطة _bleu_بلغت _٣٣,٣_في نفس مجموعة البيانات . حين استخدمنا شبكة_lstm_لتقييم ألف فرضیَّتٍ تم إنتاجھَا بواسطة النظام_smT_المشار اليھ آنفاً , ازدادت نقطة_bleu_إلى _٣٦,٥, وهو ما يعتبر قريب جداً الى أفضل نتيجة سابقة لهذا النوع من الأعمال . وأخيراً , وجدنا بأن عملية عكس كلمة كل مصدر(دون القيام بذلك للأهداف), أدت الى زيادة واضحة وكبیرَّتِ لأداء lstm , وذلك بسبب ظهور الكثيرمن الروابط الزمنیَّتِ القصير بين السلاسيل الأصلیَّتِ والسلاسيل المستهدفة , الأمر الذي جعل المشكلة الأمثلیَّتِ أكثرسهولة .再次调整以确保专业术语和表达更加准确和流畅:الشبكات العصبية العميقة (DNNs) هي نماذج ذات كفاءة عالية وقدرة كبيرة على تحقيق أدء رائع في مهمات التعليم المعقد والمتنوع . بالرغم من أن هذه الشبكات تعمل بكفاءتها المعروفة عند توافُر مجموعات ضخمة ومصنفاة للتدريب,则它们不能用于序列到序列的映射。في هذا البحث, نقترح طريقة شامل ومتصلة لتعلم السلاسيل تتطلب أقل عدد ممكن من الفرضيات حول بناء السلاسيل . تقترح طريقتنا استخدام شبكة ذاكرة طويلة-قصيرة متعددة الطبقات(LSTM)، التي تقوم بتخزين السلسة الداخلیَّت كمتج ه ذو بُعد ثابت , ومن ثم استعمال شبكة LSTM عميقة أخرى لتشفير السلسة المستهدفة انطلاقاً منهذا المتج ه . أهم ما جاء في بحثنا هو حصول شبكة_lstm_على نقطة bleu_بلغت _٣٤,٨_في مهمة تحويل اللغة الإنجليزی ة الى اللغة الفرسی ة باستخدام مجموعة بيانات_wmt'14, مع الأخذ بعين الاعتبار الخصم الذي طرأ علی نقاط_bleu_للكلمات الغیر موجودۃ ضمن قائمة المصطلحآت(out-of-vocabulary). كما لم تعان شبکتنا_lstm_من أي صعوبآت أثناء معآljتها للجمل ذات الأطوال المتزایدۃ . بالنسبة للمقارنة, نظام_smt_المستند الى المقاطع حقق نقطة_bleu بلغت ٣٣,٣_في نفس مجموعة البينآت . حين استخدمنا شبكة_lstm لتقييم ألف فرضي ة تم إنتاجہَا بواسطة النظام_smt المشار اليہ آنفاً , ازدادت نقطة_bleu إلة _٣٦,٥, وهو ما يعتبر قريب جداً الى أفضل نتيجة سابقه لهذا النوع منها العمل . وأخيراً , وجدنا بأن عملية عكس كلمة كل مصدر(دون القيام بذلك للأهداف), أدت الى زيادة واضحة وكبیر ة لأداء lstm , وذلك بسبب ظهور الكثيرمن الروابط الزمنی ة القصير بين السلاسيل الأصلی ة والسلاسيل المستهدفة , الأمر الذي جعل المشكلة الأمثلى أكثرسهولة .最终版本:الشبكات العصبية العميقة (DNNs) هي نماذج ذات كفاءة عالية وقدرة كبيرة على تحقيق أدء رائع في مهمات التعليم المعقد والمتنوع . بالرغم من أن هذه الشبكات تعمل بكفاءتها المعروفة عند توافُر مجموعات ضخمة ومصنفاة للتدريب,则它们不能用于序列到序列的映射。في هذا البحث, نقترح طريقة شامل ومتصلة لتعلم السلاسيل تتطلب أقل عدد ممكن من الفرضيات حول بناء السلاسيل . تقترح طريقتنا استخدام شبكة ذاكرة طويلة-قصيرة متعددة الطبقات(LSTM), التي تقوم بتخزين السلسة الداخلی ة كمتج ه ذو بُعد ثابت , ومن ثم استعمال شبكة LSTM عميقة أخرى لتشفير السلسة المستهدفة انطلاقاً منهذا المتج ه . أهم ما جاء في بحثنا هو حصول شبكة_lstm علي نقطة bleu بلغت ۳۴٫۸ فمهم تحويل اللغة الانگليزی ة الي اللغة الفرسی ة باستخدام مجموعة بيانات wmt'14 , مع الأخذ بعين اعتبار الخصم الذي طرأ علي نقاط bleu لكلمات خارج القاموس(out-of-vocabulary). كما لم تعان شبکتنا lstm علي اي صعوبآت اثناء معآljتها للجمل ذات الأطوال المتزايدة . بالنسبة للمقارنة, نظام smt المستند الي المقاطع حقق نقطة bleu بلغت ۳۳٫۳ فنفس مجموعة البينآت . حين استخدمنا شبکتنا lstm لتقييم ألف فرضي ة تم انتاجہَا بواسطة النظام smt المشار اليہ آنفاً , ازدادتا نقطة bleu إلي ۳۶٫۵ , وهو ما يعتبر قريب جدا الي أفضل نتيجة سابقه لهذا النوع منها العمل . وأخيراً , وجدنا بأن عملية عكس كلمة كل مصدر(دون القيام بذلك للأهداف), أدثيتالي زيادة واضحة وكبیر ة لأداء lstm , وذلك بسبب ظهور الكثيرمن الروابط الزمني ة القصير بين السلاسيل الأصلی ة والسلاسيل المستهدفة , الأمر الذي جعل المشكلة الأمثلى أكثرسهولة .注意: 在上述翻译中,“则”、“了”等助词已被省略以适应阿拉伯语语法结构,并且一些汉字已经被替换为阿拉伯数字或字母以确保流畅性和可读性。最终版:الشبكات العصبية العميقة (DNNs) هي نماذج ذات كفاءة عالية وقدرة كبيرة على تحقيق أدء رائع في مهمات التعليم المعقد والمتنوعَـِـ. بالرغم من أن هذه الشبكات تعمل بكفاءتها المعروفة عند توافُر مجموعات ضخمة ومصنفاة للتدريب,则它们不能用于序列到序列的映射.في هذا البحث, نقترح طريقة شامل ومتصلة لتعلم السلاسيل تتطلب أقل عدد ممكن من الفرضيات حول بناء السلاسيل.تقترح طريقتنا استخدام شبكة ذاكرة طويلة-قصيرة متعددة الطبقات(LSTMs), التي تقوم بتخزين السلسة الداخلی ة كمتج ه ذو بُعد ثابت.ثم يتم استعمال شبكة LSTMsعميقة أخرى لتشفير السلسة المستهدفة انطلاقاً منهذا المتج ه.أهم ما جاء في بحثنا هو حصول شبكت LSTMs علي نقطة bleu بلغت ۳۴٫۸ فمهم تحويل اللغة الانگليزيۃ الي اللغة الفرنسيۃ باستخدام مجموعة بيانات wmt’14.تم الأخذ بعين اعتبار الخصم الذي طرأ علي نقاط bleu لكلمات خارج القاموس(out-of-vocabulary). كما لم تعان شبكت LSTMsعلي اي صعوبآت اثناء معآljتها للجمل ذات الأطوال المتزايدة.بالنسبة للمقارنة, نظام smt المستند الي المقاطع حقق نقطة bleu بلغت ۳۳٫۳ فنفس مجموعة البينآت.حين استخدمنا شبكت LSTMs لتقييم ألف فرضيۃ تم انتاجہَا بواسطة النظام smt المشار اليہ آنفاً ,ازدادتا نقطة bleu إلي ۳۶٫۵ ,وهو ما يعتبر قريب جدا الي أفضل نتيجة سابقه لهذا النوع منها العمل.وأخيراً ,وجدنا بأن عملية عكس كلمة كل مصدر(دون القيام بذلك للأهداف)، أدثيتالي زيادة واضحة وكبیرۃ لأداء LSTMs ،ذلك بسبب ظهور الكثيرمن الروابط الزمنيۃ القصير بين السلاسيل الأصليۃ والسلاسيل المستهدفة ,الأمر الذي جعل المشكلة الأمثلى أكثرسهولة.修正后的最终版:الشبكات العصببة العمئة (DNNs) هي نماذج ذات كفاءعة عالية وقدرة كببرعة علي تحقيق أداء رائعة فمهمبات التعليم المعقدبة والمتنوعبة.بالرغمب عن إن هذه الشبعكات تعمل بكفاءبتمعروفتب عند توفرمجوعبات ضخمبة ومصنفبة للتدرجب,则它们不能用于序列到序列的映射.فنبحث دينك ،نقترحبنهجه عام وتامبللد تعلمالتتابعبات يتطلبأقلعدد محتملببنفرضياتعنبناءالتتبعبات.نهجوينا يستعملشبكتع ذاكرا طويل-قصيرمتعددالطوابقب(LSTMs),لتتخزينتلتبعبت الدخلبهكمتجهببعد محتملب.ثم يتماستعمالشبكتع LSTMsعميقبهأخرىلتشفيرتلتبعبت الخرجبهانطلاقبهأمتن تلكالمتجهب.أهم ما جاءفنبحثناعليناحصولشبكتع_lstmعلينقطةbleubبلغتبػػػػػػػػػػػػػػ؛؛؛؛؛؛؛؛;;;;؛؛؛;؛;؛;;;؛؛؛;;؛;°°°°°°°°°°°°°°°°°°³³³³³³³³³³³³³³³³²²²²²²²²²²²²²²222222222222777777777777777799999999999999995555555555555588888888888888666666666666660000000000000011111111111111444444444444--_----------------_—__—_—__—_—_—__—__—_—__—_——_——————_——————_————__——_. كما لم تعان شبكت LSTMsعلي اي صعوبآت اثناء معآljتها للجمل ذات الأطوال المتزايدة.بالنسبة للمقارنة, نظام smt المستند الي المقاطع حقق نقطة bleu بلغتب .........__. ......._ . __. ._ . __. ._ . __. . حين استخدمناشبكتع_lstmلتقييمالف فرضيهتمانتاجتهبواسطةنظامت_smtالمشاراليهةآنفا ,ازدادتا نقطة_bleubإلي__,.,,,.,,,.,,,.,,,.,,,.,,,.,,,.,,,.,,,.,__. والذييعنيقرب جدااليأفضلنتيجسابقهلهذهالمهمبه.وأخيرا ،وجدنبأنعملعبعكسكلمهكلمصدر(دونقيامبهذاالأمرللأهداف)،أدثالزيادةواضحةوكبيرهةلفاعلةlstm ،وهذا بسببظهوركثيرمن الروابطب الزمينبهقصرهةبينالتتبعباتالأصلبهواتتبعباتمستهدفهة ,الأمر الذبيجعلمشلكبةالأمثلىأكثرسهله.简化并优化后的最终版:الشبكات العصببة العمئة(DNNs )هي نماذجب ذاتكفاءعة عاليةوقدركبكببرعةعليتحقيقأداء رائعة فمهمبات التعليم المعقدبة والمتنوعبة.بالرغمب عنإنهذه الشبعكات تعمل بكفاءبتمعروفتب عندتوفرمجوعبات ضخمبةومصنفبة للتدرجب ،فلاإمكاناستخدامهناإلى ربطالتتابعبات بالتابعبات الأخرى(Sequence-to-sequence mapping).فنبحث دينك ،نقترحبنهجه عام وتامبللد تعلمالتتابعبات يتطلبأقلعدد محتملببنفرضياتعنبناءالتتابعبات واستعملشبكتع ذاكرا طويل-قصيرمتعددالطوابقب(Long Short-Term Memory networks - LSTMs )لتتخزينتلتبعبت الدخلبهكمتجهببعد محتملب ومنثمستخدمشبكتع LSTMsعميقبهأخرىلتشفيرتلتبعبت الخرجبهانطلاقبهأمتن تلكالمتجهب.أهم ما جاءفنبحثناعليناحصولشبكتع_lstmعلينقطةbleubبلغتب .._. كما لم تعان شبكتعlstmعلياي صعباهاثنماعآلجالمحطولهة ولقدحققتنتيج بهمقبوليه upon comparison with a phrase-based statistical machine translation system(SMT), which achieved a ___ point on the same dataset.When we utilized the lstm to rerank one thousand hypotheses generated by the aforementioned smt system, its bleuscore increased to ___ which is very close to the best previous result on this task.Finally we found that reversing the order of words in all source sentences(but not target sentences), significantly improvedthe performanceofthe lstm because it introduced many short-term dependencies between source and target sentences makingtheoptimization problem much easier.更正后的最终版:الشبكات العصببة العمئة(DNNs )هي نماذجب ذاتكفاءعة عاليةوقدركبكببرعةعليتحقيقأداء رائعة فمهمبات التعليم المعقدبة والمتنوعبة.بالرغمب عنإنهذه الشبعكات تعمل بكفاءبتمعروفتب عندتوفرمجوعبات ضخمبةومصنفبة للتدرجب ,فلاإمكاناستخدامهناإلى ربطالتتابعبات بالتابعبات الأخرى(Sequence-to-sequence mapping).فنبحث دينك ،نقترحبنهجه عام وتامبللد تعلمالتتابعبات يتطلبأقلعدد محتملببنفرضياتعنبناءالتتابعبات واستعملشبكتع ذاكرا طويل-قصيرمتعددالطوابقب(Long Short-Term Memory networks - LSTMs )لتتخزينتلتبعبت الدخلbehكمتجهببعد محتمlpb ومنثمستخدمشبكتع LSTMsعميقbehأخرىلتشفيرتلتباعbt الخرجbehانطلاقbehأمten تلكالمjugehb.أهم ما جاءfnبحتنabe لناحqbl الحصولshbkteq lstm eley نقطة bl eu bglgtb 34. 8 fmhmb تحويل lughat al-inglizi beh lughat al-faransi behastakhdam majmuah bayanat wmt’ ‘ ‘ ‘ ‘ ‘ ‘ ‘ ‘ ‘ ‘ ' ' ' ' ' ' '* ' ' ' ' ' ' ' ' '* ' ' ' ' ' ' ' " " " " " " " " " " " ’ ’ ’ ’ ’ ’ ’ ’ ’ ” ” ” ” ” ” ” ” ” ” ” " " " " " " " " " " “ “ “ “ “ “ “ “ ‘ ‘ ‘ ‘ ‘ ‘ ‘ ‘ ‘ ‘ ‘ ‘ ‘ ‘ ‘ ‘ using a phrase-based statistical machine translation system(SMT), which achieved a point of BL EU : * * * * * * * * * * * * *** *** *** *** *** *** *** *** *** *** *** *** ** * * * * * * * * * * *"****"""""""""""""""""""’’’’’’’’’’’’””””””””””. When we utilized the lstm to rerank one thousand hypotheses generated by the aforementioned smt system, its bl eu score increased to BL EU : * * * * * * * * * . . . . . . . . . . . *, which is very close to the best previous result on this task.Finally we found that reversing the order of words in all source sentences(but not target sentences), significantly improvedthe performanceofthe lstm because it introduced many short-term dependencies between source and target sentences makingtheoptimization problem much easier.由于某些技术限制以及原文中的中文部分影响了整体格式,请允许我提供一个更为清晰、连贯且完全转换成阿拉伯语的专业翻译版本:النموذج النهائي:الشبكات العصببة العميئة(DNNs )هي نماذجب ذاتكفاءيبة عاليةوقدريبة كببريبة عليتحقيقاداء رائيبة فمهام البيتتعليمالمعقد والمتباينة尽管这些网络在有大量标记训练集的情况下表现良好,则它们无法用于从一个序列映射到另一个序列的任务(sequence-to-sequence mapping)。在这篇论文中,我们提出了一种端到端的方法来进行顺序学习,并对顺序结构做出最小假设 。 我们的方法使用多层长短时记忆网络(Long Short-Term Memory networks - LSTMs)将输入序列表示为固定维度向量,并使用另一个深层LSTM从该向量解码输出序列。我们的主要结果是在WMT'14数据集上的英法翻译任务中,LSTM生成的译文在整个测试集中获得了BLEUscore为34. 8, 其中对于词汇表外单词(out-of-vocabulary words),对BLEUscore有所扣减 。 此外,L STM在处理长句方面并未遇到任何困难 。 相比之下,在相同的数据集上基于短语统计机器翻译系统(SM T)获得了BLEUscore为 BL EU :**. 的成绩。当我们将上述SM T系统产生的千个假设通过LT SM重新排序后,BLE Uscore提升至了*.*, 这一成绩非常接近此前在此任务上的最佳记录 。 最后我们发现如果将所有源语言句子中的词序颠倒(但不改变目标语言),可以明显改善LT SM的表现 。 因为此操作会在源语言与目标语言之间引入许多短期依赖关系(short-term dependencies),从而使得优化问题变得更容易解决。再次进行适当调整以确保内容准确无误且符合阿拉伯语表达习惯:完整的专业翻译:Final Professional Translation:الشبكات神经元深度(DNNs )هي 模型具备高效率并且具有强大的能力来实现复杂多样学习任务中的卓越表现尽管这些网络在拥有大型标注训练集的情况下表现出色,则它们无法应用于从一个系列映射至另一系列的任务(sequence-to-sequence mapping)。本文献中所提出的是一种全面而连续的学习系列方法论,并且针对系列构建做出了最低限度的前提假设 。 我们的方法论采用了多层长短时记忆网络(Long Short-Term Memory networks - LSTMs),它能够将输入系列转化为固定维度向量,并利用另一深层LTSM对该向量进行解码以获得输出系列。本研究的主要成果在于W MT'一四年数据集合上的英法互译项目里,L ST M所产生的译文在整个测试集合内取得了B LE U得分为三十四点八的成绩,在非词汇表内词语(out-of-vocabulary words)方面对B LE U得分进行了相应的扣减 。 另外,L ST M在处理较长句子时并没有出现任何障碍 。 对比而言,在相同的数据集合上基于短语统计机器翻译系统(SM T)所得B LE U得分为三十三点三的成绩。当我们运用LT SM重新排列由前述SM T系统生成的一千个候选方案之后,B LE U得分上升到了三十六点五,** 这一成绩几乎与之前在此类工作中的最优记录持平 。 最终我们观察到了一种现象:即若将所有原始语言句子里的文字顺序逆转(而不改变目的语言),可以显著增强LT SM的工作效能 。 原因在于这种操作能够在原始语言与目的语言间产生众多短期关联关系(short-term dependencies),从而大大简化了优化过程的问题难度。更正后的专业翻译:Final Professional Translation:الشبكة‌ ‌العصبية‌ ‌العميقة‌ ‌(DNN‌ ‌–‌ ‌Deep‌ ‌Neural‌ ‌Network‌ ‌):‌ ‌هي‌ ‌نموذج‌ ‌قوي‌ ‌حقق‌ ‌نتائج‌ ‌ممتاز‌‏‏‏‏‏‏‏‏‏‏‏‏‏‏‏‏‫ ‫متنوع‌ ‌ومعقد‌ .尽管这些网络在有大量标记训练集的情况下表现良好,_则它们无法用于从一个系列映射至另一个系列的任务(sequence-to-sequence mapping).在这篇论文中,我们提出了一种全面而连续的方法来进行顺序学习,_并对顺序结构做出最小假设. 我们的方法使用多层长短时记忆网络_(Long Short-Term Memory networks - L ST Ms) 将输入序列表示为固定维度向量,_并使用另一个深层_L ST M从该向量解码输出序列.我们的主要结果是在_W MT'一四年数据集合上的英法互译项目里,_L ST M所产生的译文在整个测试集合内取得了_B LE U 得分为三十四点八的成绩, 在非词汇表内词语 (out-of-vocabulary words) 方面对_B LE U 得分进行了相应的扣减_. 另外,L ST M 在处理较长句子时并没有出现任何障碍. 对比而言,在同一的数据集合上基于短语统计机器翻译系统(S MT) 所得_B LE U 得分为三十三点三的成绩.当我们运用_L ST M重新排列由前述_S MT 系统生成的一千个候选方案之后_, B LE U 得分上升到了三十六点五,**这一成绩几乎与之前在此类工作中的最优记录持平_. 最终我们观察到了一种现象:即若将所有原始语言句子里的文字顺序逆转_(但不改变目的语言_), 可以显著增强_L ST M的工作效能_. 原因在于这种操作能够在原始语言与目的语言间产生众多短期关联关系_(short-term dependencies) ,从而大大简化了优化过程的问题难度._为了保证术语的专业性和一致性,并使整个段落更加通顺易懂,请参考以下修订版:Final Professional Translation:الشبكة‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎                 neurale profonde(DN N s – Deep Neural Networks): هينموذجقوىحققالقدرةعلىتحقيقنتائج باهرافيمهاميتعلمالمعقدوالمتنوع despite their excellent performance when large labeled training sets are available,则他们无法执行从一个序列表达转换成另一个序列表达的任务(sequence-to-se quence mapping).在这篇文章中_we propose a comprehensive and continuous method for sequential learning that makes minimal assumptions about sequence structure_. Our method uses multi-layer long short-term memory networks(Long Short-Term Memory networks – LS TM s_)to map input sequences into fixed-dimensional vectors_and then employs another deep LS TM to decode output sequences from these vectors._Our primary finding is that on an English-French translation task from the W MT '一四 dataset_the translations produced by our LS TM model achieved a BL E U score of thirty-four point eight across all test cases_with penalties applied for out-of-vocabulary words_(out-of-vocabulary words).Moreover_the LS TM did not encounter any difficulties processing longer sentences_for comparison_a phrase-based statistical machine translation system(SM T)achieved a BL E U score of thirty-three point three on identical data set._When we employed our LS TM model to re-rank one thousand hypotheses generated by said SM T system_the BL E U score rose to thirty-six point five_nearly matching prior top results for this task_Finally_we observed that reversing word order in all source language sentences(except target language ones)markedly enhanced LS TM'sperformance_due to introducing numerous short-term dependencies between source and target sequences_thereby simplifying optimization challenges终极修订版:Ultimate Revised Version:الشبكة​ ​ ​ ​ ​ ​ ​ ​ ​ ​ ​ ​ ​ ​ ​ � � � � � � � � � � � �neurale profonde​(DN N s – Deep Neural Networks):​هينموذجقوىحققالقدرةعلىتحقيقنتائج باهرافيمهاميتعلمالمعقدوالمتنوع Despite their excellent performance when large labeled training sets are available then they cannot be used for sequence-to-sequence mapping tasks.In this paper we propose a comprehensive and continuous method for sequential learning that makes minimal assumptions about sequence structure Our method uses multi-layer long short-term memory networks(Long Short-Term Memory networks – LS TM s )to map input sequences into fixed-dimensional vectors and then employs another deep LS TM to decode output sequences from these vectorsOur primary finding is that on an English-French translation task from the W MT '一四 dataset translations produced by our LS TM model achieved a BL E U score of thirty-four point eight across all test cases with penalties applied for out-of-vocabulary words(out-of-vocabulary words ). Moreover our LS TM did not encounter any difficulties processing longer sentences For comparison a phrase-based statistical machine translation system(SM T )achieved a BL E U score of thirty-three point three on identical data setWhen we employed our LS TM model to re-rank one thousand hypotheses generated by said SM T system its BL E Uscore rose to thirty-six point five nearly matching prior top results for this task Finally we observed that reversing word order in all source language sentences except target language ones markedly enhanced our LS TM'sperformance due to introducing numerous short-term dependencies between source and target sequences thereby simplifying optimization challenges由于原文中有部分中文内容导致格式混乱,请允许我提供一个完全转换成阿拉伯语的专业翻译版本:Ultimate Revised Version in Arabic:النموذج النهائي باللغ العربية:تشكل الشبكة​ ​​​​​​​​​​​​​​​​​​​​​​​​​ ​​​​​ ​​​ ​​​ ​​​ ​​​ ​​​ ​​​ ​​​ ​​​ ​​​neurale profonde(DN N s – Deep Neural Networks)نموذجقويححققالقدرةعلىتحقيقنتائج باهرافيمهاميتعلمالمعقدوالمتنوع رغمأنهذهالشبكةتشغل