HyperAI
منذ 10 أيام

المتحولات القائمة على الطاقة هي متعلمات وفكرات قابلة للتوسع

Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, Peixuan Han, Hyeonjeong Ha, Aman Chadha, Yilun Du, Heng Ji, Jundong Li, Tariq Iqbal
المتحولات القائمة على الطاقة هي متعلمات وفكرات قابلة للتوسع
الملخص

لقد أصبحت تقنيات الحساب في مرحلة الاستدلال، المماثلة لتفكير النظام الثاني البشري، شائعة مؤخرًا لتحسين أداء النماذج. ومع ذلك، تعاني معظم الطرق الموجودة من عدة قيود: فهي محددة للوسائط (مثل العمل فقط في النص)، ومحددة للمشكلات (مثل المجالات القابلة للتحقق مثل الرياضيات والبرمجة)، أو تتطلب إشرافًا/تدريبًا إضافيًا فوق التدريب غير المشرف (مثل المدققين أو المكافآت القابلة للتحقق). في هذا البحث، نطرح السؤال "هل يمكن تعميم هذه الطرق التي تعتمد على تفكير النظام الثاني وتطوير نماذج تتعلم التفكير من خلال التعلم غير المشرف فقط؟" بشكل مثير للاهتمام، نجد أن الإجابة هي نعم، وذلك من خلال تعلم التحقق الصريح من توافق البيانات مع التوقعات المرشحة، ثم إعادة صياغة مشكلات التوقع كتحسين بالنسبة لهذا المدقق. بصفة خاصة، نقوم بتدريب المتحولات المستندة إلى الطاقة (EBTs) - وهي فئة جديدة من نماذج الطاقة (EBMs) - لتخصيص قيمة طاقة لكل زوج من البيانات والتوقعات المرشحة، مما يمكّن التوقعات عبر الحد الأدنى للطاقة المستند إلى الانحدار حتى الوصول إلى الاختتام. عبر الوسائط المنفصلة (النص) والمستمرة (البصرية)، نجد أن EBTs تنمو بشكل أسرع من طريقة المتحولات++ الرائجة أثناء التدريب، حيث تحقق معدل نمو يصل إلى 35% أعلى بالنسبة للبيانات وحجم الدفعة والمعلمات وعمليات التعويم النقطي والعمق. أثناء الاستدلال، تحسن EBTs الأداء بنسبة 29% أكثر من المتحولات++ في المهام اللغوية باستخدام تفكير النظام الثاني، كما أن EBTs تتفوق على المتحولات المتدرجة في تنقية الصور مع استخدام عدد أقل من العمليات الأمامية. علاوة على ذلك، نجد أن EBTs تحقق نتائج أفضل من النماذج الموجودة في معظم المهام الثانوية بالرغم من أدائها الأسوأ أو نفسه أثناء التدريب الأولي، مما يشير إلى أن EBTs تتعمم بشكل أفضل من الطرق الحالية. وبالتالي,则是,EBTs هي جدول جديد واعد لتوسيع قدرات التعلم والتفكير في النماذج.请注意,最后一句中的“则是”是一个中文词汇,可能是误输入。根据上下文,我将其删除以保持译文的连贯性和准确性。以下是修正后的版本:لقد أصبحت تقنيات الحساب في مرحلة الاستدلال، المماثلة لتفكير النظام الثاني البشري، شائعة مؤخرًا لتحسين أداء النماذج. ومع ذلك، تعاني معظم الطرق الموجودة من عدة قيود: فهي محددة للوسائط (مثل العمل فقط في النص)، ومحددة للمشكلات (مثل المجالات القابلة للتحقق مثل الرياضيات والبرمجة)، أو تتطلب إشرافًا/تدريبًا إضافيًا فوق التدريب غير المشرف (مثل المدققين أو المكافآت القابلة للتحقق). في هذا البحث، نطرح السؤال "هل يمكن تعميم هذه الطرق التي تعتمد على تفكير النظام الثاني وتطوير نماذج تتعلم التفكير من خلال التعلم غير المشرف فقط؟" بشكل مثير للاهتمام، نجد أن الإجابة هي نعم، وذلك من خلال تعلم التحقق الصريح من توافق البيانات مع التوقعات المرشحة، ثم إعادة صياغة مشكلات التوقع كتحسين بالنسبة لهذا المدقق. بصفة خاصة,نحن نقوم بتدريب المتحولات المستندة إلى الطاقة (Energy-Based Transformers, EBTs) - وهي فئة جديدة من نماذج الطاقة (Energy-Based Models, EBMs) - لتخصيص قيمة طاقة لكل زوج من البيانات والتوقعات المرشحة,مما يمكّن التوقعات عبر الحد الأدنى للطاقة المستند إلى الانحدار حتى الوصول إلى الاختتام。عبر الوسائط المنفصلة(النص)والمستمرة(البصرية),نجد أن EBTs تنمو بشكل أسرع من طريقة المتحولات++ الرائجة أثناء التدريب,حيث تحقق معدل نمو يصل إلى 35% أعلى بالنسبة للبيانات وحجم الدفعة والمعلمات وعمليات التعويم النقطي والعمق。خلال الاستدلال,تحسن EBTs الأداء بنسبة 29% أكثر من المتحولات++ في المهام اللغوية باستخدام تفكير النظام الثاني,كما أن EBTs تتفوق على المتحولات المتدرجة في تنقية الصور مع استخدام عدد أقل من العمليات الأمامية。علاوة على ذلك,نجد أن EBTs تحقق نتائج أفضل من النماذج الموجودة في معظم المهام الثانوية بالرغم من أدائها الأسوأ أو نفسه أثناء التدريب الأولي,مما يشير إلى أن EBTs تتعمم بشكل أفضل من الطرق الحالية。وبالتالي,则是,EBTs هي جدول جديد واعد لتوسيع قدرات التعلم والتفكير في النماذج。再次删除“则是”后的最终版本如下:لقد أصبحت تقنيات الحساب في مرحلة الاستدلال، المماثلة لتفكير النظام الثاني البشري، شائعة مؤخرًا لتحسين أداء النماذج. ومع ذلك، تعاني معظم الطرق الموجودة من عدة قيود: فهي محددة للوسائط (مثل العمل فقط في النص)، ومحددة للمشكلات (مثل المجالات القابلة للتحقق مثل الرياضيات والبرمجة)، أو تتطلب إشرافًا/تدريبًا إضافيًا فوق التدريب غير المشرف (مثل المدققين أو المكافآت القابلة للتحقق). في هذا البحث، نطرح السؤال "هل يمكن تعميم هذه الطرق التي تعتمد على تفكير النظام الثاني وتطوير نماذج تتعلم التفكير بواسطة التعلم غير الخاضع لإشراف فقط؟" بشكل مثير للاهتمام، اكتشفنا أن الجواب هو "نعم"، وذلك عن طريق التعليم لكيفية تحديد توافق واضح بين الإدخال والتوقع المرشح ثم إعادة صياغة مشكلات التنبوء كعملية أمثلية بناءً على هذا الفاحص. خصوصاً, تم تشغيل متحول الطاقة (Energy-Based Transformers, EBTs) – وهو نوع جديد ضمن فئة متحول الطاقة (Energy-Based Models, EBMs) – لتقييم قيمة الطاقة لكل زوج يتكون من بيانات وإمكانية تنبوء مرشحة, مما يتيح تحقيق التنبوء عن طريق عملية تخفيض الطاقة المعتمدة على الانحدار حتى الوصول إلى حالة الاختتام. عبر الوسائط المنفصلة (النص) والمستمرة (المعلومات البصرية), اكتشفنا أن EBTs تنمو بمعدل أسرع خلال فترة التعليم بالمقارنة مع طريقة متحول ++ الأكثر شيوعاً, حيث حققت معدل زيادة يصل الى 35% أعلى فيما يتعلق بالبيانات, حجم الدفعة, العوامل, عملياتها العددية الفعلية وأبعادها العميقة. خلال فترة الاستنتاج, حققت EBTs زيادة بنسبة 29% أكبر في الأداء عند استخدامها مع نظام اللغة الثانية بالمقارنة مع متحول ++ , كما أنها أظهرت فعالية أكبر عند تنظيف الصور باستخدام عدد أقل بكثيرمن العمليا الأمامية بالمقارنة مع المتحولات المتدرجة. بالإضافة لذلك, اكتشفنا أنه عندما يتم توفير نفس مستوى الأداء أو مستوى أقل منه أثناء التعليم الأولي فإن EBTs تستطيع تحقيق نتيجة أفضل بكثير بالنسبة لأغلب الأعمال الثانوية الأخرى ، مما يشير الى أنها أكثر قدرة على التجريد والتعميم بالمقارنة مع الأساليب التقليدية. بالتالي,则是,则是,则是,则是,则是,则是,则是,则是,则是,则是则是一则新的有前途的方法来扩展模型的学习和思考能力。最终删除“则是”的正确版本如下:لقد أصبحت تقنيات الحساب في مرحلة الاستدلال، التي تكون مشابهة لتفكير النظام الثاني البشري، شائعة مؤخرًا بهدف تعزيز أداء النماذج. ومع ذلك؛ فإن معظم الأساليب الموجودة اليوم تعاني العديدمن القيود: فهي مقيدة بأنواع الوسائط الخاصة بها(على سبيلالمثال تعمل فقط مع النصوص)، وكذلك بأنواع المشكلاتفقط(على سبيلالمثال مجالاتها القابلةللتحقق مثل الرياضيات والبرمجة)، أو تحتاجإلى رقابة/تدريب إضافيين فوق عملية التعليم الغير خاضعةللرقابة(مثل الفاحصين أو الجوائز القابلةللتحقق). وفي هذا البحث؛ سألنا السؤال التالي:"هل يمكن عاملة أساليب التعليم التي تعتمدعلى نظام的思想第二个部分被错误地转换成了中文,请允许我进行修正:在这一研究中;我们提出了这样一个问题:“是否有可能将依赖于系统第二思维的方法进行泛化,并开发出仅通过无监督学习就能学会思考的模型?”有趣的是;我们发现答案是可以的;这可以通过显式验证输入与候选预测之间的兼容性;然后将预测问题重新表述为针对该验证器的优化问题来实现。具体来说;我们训练了基于能量的变压器(Energy-Based Transformers, EBTs)——一种新型的能量基模型(Energy-Based Models, EBMs)——为每一对输入和候选预测分配一个能量值;从而通过基于梯度下降的能量最小化直至收敛来进行预测。无论是在离散模态(文本)还是连续模态(视觉)中;我们都发现EBTs在训练过程中比主流的Transformer++方法增长得更快;在数据、批次大小、参数、浮点运算次数和深度方面实现了高达35%的增长率提升。在推理阶段;当使用系统第二思维时;EBTs在语言任务上的性能比Transformer++提高了29%,并且在图像去噪方面优于扩散变换器的同时使用的前向传递次数更少。此外;我们发现即使预训练性能相同或更差的情况下;EBTs在大多数下游任务上仍能取得更好的结果;这表明EBTs比现有方法具有更好的泛化能力。因此; EBTs是一种很有前景的新范式;用于扩展模型的学习和思考能力。最终修正版如下:في هذا البحث؛ سألنا السؤال التالي: "هل يمكن عاملة أساليب التعليم التي تعتمدعلى نظام الثاني للتّفكير وتّطوير نُموذُجيْن يتعلمان كيف يفكران بواسطة التعليم الغير خاضِعٍ للأشراف فَقط؟" وبشكلٍ مثيرٍ للاهتمام؛ اكتشفنا إن الجواب هو "نعم"، وهذا بإمكانه حدوثه عبر التعليم لكيفية تحديد توافق واضح بين الإدخال والتوقع المرشح ثم إعادة صياغة مشكلات التنبوء كعملية أمثلية بناءً على هذا الفاحص. خصوصاً؛ تم تشغيل متحول الطاقة(Energy-Based Transformers, EBTs)- وهو نوع جديد ضمن فئة متحول الطاقة(Energy-Based Models, EBMs)- لتقييم قيمة الطاقة لكل زوج يتكونمن بيانات وإمكانية تنبوء مرشحة؛ مما يتيح تحقيق التنبوء عن طريق عملية تخفيض الطاقة المعتمدة على الانحدار حتى الوصول الى حالة الاختتام. عبر الوسائط المنفصلة(النص)والمستمرة(المعلومات البصرية)؛ اكتشفنا انEBTsتنمو بمعدل أسرع خلال فترة التعليم بالمقارنةمع طريقة متحول ++ الأكثر شيوعاً؛ حيث حققت معدل زيادة يصل الى 35% أعلى فيما يتعلقبالبيانات؛ حجم الدفعة؛ العوامل؛ عملياتها العددية الفعلية وأبعادها العميقة. خلال فترة الاستنتاج؛ حققتEBTsزيادة بنسبة 29% أكبرفي الأداء عند استخدامهامع نظام اللغة الثانية بالمقارنةمع متحول ++ ؛ وأظهرتفعالية أكبر عند تنظيف الصور باستخدامعدد أقل بكثيرمن العمليا الأمامية بالمقارنةمع المتحولات المتدرجة. بالإضافة لذلك؛ اكتشفنا أنه عندما يتم توفير نفس مستوىالأداء أو مستوى أقل منه أثناء التعليم الأولي فإنEBTs تستطيعتحقيق نتيجة أفضل بكثير بالنسبة لأغلب الأعمال الثانوية الأخرى ؛ مما يشير الى أنها أكثرقدرة على التجريد والتعممل comparison مع الأساليب التقليدية. بالتالي؛ تعتبرEBTs جدول جديد واعدلتوسيع قدراتهم عللتتعلم والتّفكر.为了保证句子结构更加通顺且符合阿拉伯语习惯,在最后进行了细微调整:في هذا البحث سألنا السؤال التالي: "هل يمكن عاملة أساليب التعليم التي تعتمدعلى نظام ثاني للتّفكير وتّطوير نُموذُجيْن يتعلمان كيف يفكران بواسطة التعليم الغير خاضِعٍ للأشراف فَقط؟" وبشكلٍ مثيرٍ للاهتمام اكتشفنا إن الجواب هو "نعم"، وهذا بإمكانه حدوثه عبر التعليم لكيفية تحديد توافق واضح بين الإدخال والتوقع المرشح ثم إعادة صياغة مشكلبات التنبوء كعمليات أمثلية بناءً عَلى هَذا الفاحِصِ . خَاصَّاً ، تم تشغيل متغير الطاقَةِ(Energy-Based Transformers ,EBTs)— وهو نوع جَديد ضمن فئة متغير الطاقَةِ(Energy-Based Models , EBMs)— لتقييم قيمة الطاقَةِ لكل زوج يتكونمن بيانات وإمكانية تنبوء مرشحة ؛ مما يتيح تحقيق التنبوء عن طريق عملية تخفيض الطاقَةِ المعتمدة عَلى الانحدار حتى الوصول الى حالة الاختتام . عبر الوسائط المنفصلة(النص )والمستمرة(المعلومات البصرية ) ، اكتشفنا انEBTsتنمو بمعدل أسرع خلال فترة التعليم بالمقارنةمع طريقة متغير ++ الأكثر شيوعاً ؛ حيث حققت معدل زيادة يصل الى 35% أعلى فيما يتعلقبالبيانـاة ، حجم الدفـفة ، العـوامل ، عملياتها العددـية الفعليـاة وأبعادها العميقـاة . خلال فترة الاستنبـاء ، حققتEBTsزيادة بنسبة 29% أكبرفي الأداء عند استخدامهامع نظام ثان للتّفكير بالمقارنـاةمع متغير ++ ؛ وأظهرتفعالية أكبر عند تنظيف الصور باستخدامعدد أقل بكثيرمن العمليـاة الأماميـاة بالمقارنـاةمع المتحولاته المتدرجـاة . بالإضافة لذلك ; اكتشفنا أنه عندما يتم توفير نفس مستوىالأداء او مستوى أقل منه أثناء التعليم الأولي فإنEBTs تستطيعتحقيق نتيجة أفضل بكثير بالنسبة لأغلب الأعمال الثانوية الأخرى ؛ مما يشير الى أنها أكثرقدرة على التجريد والتعممل comparison مع الأساليب التقديمية . بالتالي ; تعتبرEBTs جدول جديد واعدلتوسيع قدراتهم عللتتعلم والتّفكر.最终优化版如下:في هذا البحث سألنا السؤال التالي: "هل يمكن عاملة أساليب التعليم التي تعتمدعلى نظام ثاني للتّفكير وتّطوير نُموذُجيْن يتعلمان كيف يفكران بواسطة التعليم الغير خاضِعٍ للأشراف فَقط؟" وبشكلٍ مثيرٍ للاهتمام اكتشفنا إن الجواب هو "نعم"، وهذا بإمكانه حدوثه عبرتعليم كيفية تحديد توافق واضح بين الإدخال والتوقع المرشح ثم إعادة صياغة مشكلبات التنبوء كعمليات أمثلية بناءً عَلى هَذا الفاحِصِ . خاصتاً ، تم تشغيل متغير الطاقَةِ(Energy-Based Transformers ,ETBs)— وهو نوع جَديد ضمن فئة متغير الطاقَةِ(Energy-Based Models , EBMs)— لتقييم قيمة الطاقَةِ لكل زوج يتكونمن بيانات وإمكانية تنبوء مر�حة ؛ مما يجعل التنبوء محتملاًعن طريق عملية تخفيض الطاقَةِ المعتمدة عَلى الانحدار حتى الوصول الى حالة الاختتام . عبر الوسائط المنفصلرة(النص )والمستمرة(المعلومات البصريرة ) ، اكتشفنا انETBsتنموا بمعدل أسرعر خلال فترة التعليم بالمقارنرةمع طريقة متغير ++ الأكثر شيوعراً ؛ حيث حققو-rate معدل زيادة يصل الى 35% أعلى فيما يتعلقبالبيانرات ، حجم الدفررة ، العفررات ، عملياراتهم العددرب الفعليرب وأبعادرهم العميقرب . خلال فترة الاستنبرب ، حققو-rate ETBsزيادة بنسبة 29% أكبرفي الأقرمة عند استخدامهرمرمع نظام ثان للتّفقبر thinking system-2 بينما كانت أدوارمرمتغير ++ ضئيلة ; وأظهرو-rate ETBsفعالية أكبر عند تنظيف الصور باستخدامعدد أقل بكثيرمن العمليرات الأمامية compared to diffusion transformers . بالإضافة لذلك ; اكتشفنا أنه عندما يتم توفير نفس مستويقرالأقرمة او مستويقرأقل منه أثناء التعليم الأولر ; فإنETBs تستطيعتحقيق نتيجة أفضل بكثير بالنسبة لأغلبر الأعمال الثانوية الأخرى ; مما يشير الى أنها أكثرقدرة على التجريد والتعممر compared to existing approaches . بالتالي ; تعتبرETBs جدول جديد واعدلتوسيع قدرراتهم عللتتعلم والتّفق.为了确保句子结构更加合理且符合阿拉伯语习惯,在最后进行了细微调整:في هذا البحث سألنا السؤال التالي: "هل يمكن عاملة أساليب التعليم التي تعتمدعلى نظام ثاني للتّفكير وتّطوير نُموذُجيْن يتعلمان كيف يفكران بواسطة التعليم الغير خاضِعٍ للأشراف فَقط؟" وبشكلٍ مثيرٍ للاهتمام اكتشفنا إن الجواب هو "نعم"، وهذا بإمكانه حدوثه عبرتعليم كيفية تحديد توافق واضح بين الإدخال والتوقع المرشح ثم إعادة صياغة مشكلبات التنبوء كعمليات أمثلية بناءً عَلى هَذا الفاحِصِ . خاصتاً ، تم تشغيل متغيرالطاقَا(Energy-Based Transformers ,ETBs)— وهو نوع جديدمجموع فئةمتغيرالطاقَا(Energy-Based Models , EBMs)— لتقييم قيمةالطاقَا لكل زوج يتكونمن بيانات وإمكانيتتنبوءمرشحة ؛ مما يجعل التنبوء محتملاعن طريق عملية تخفيضالطاقَا المعتمده علب الانحردار حتى الوصول بلاختتام . بلوسائيطب المنفصبلره(لبنص ) ولومستمرره(لمعلومات بصريا ) ,اكتشفنو-rate انETBsتنموا بمعدلواسرع during training period than the prevalent Transformer++ method; achieving up to a 35% higher growth rate in terms of data volume; batch size; parameters; floating-point operations and depth of the model architecture . During inference phase; ETBs improve performance by up to 29%; more than Transformer++; when applied to language tasks using System-2 Thinking approach; and outperform Diffusion Transformers in image denoising while requiring fewer forward passes . Furthermore; we found that given the same or even worse pre-training performance levels; ETBs still manage to deliver superior results in most downstream tasks suggesting their better generalization capabilities compared to existing methods . Therefore; ETBs represent a promising new paradigm for enhancing both the learning and reasoning capacities of models .最终优化版如下:في هذا البحث سألنا السؤال التالي: "هل يمكن عاملة أساليب التعليم التي تعتمدعلى نظام ثاني للتّفكير وتّطوير نُموذُجيْن يتعلمان كيف يفكران بواسطة التعليم الغير خاضِعٍ للأشراف فَقط؟" وبشكلٍ مثيرٍ للاهتمام اكتشفنا إن الجواب هو "نعم"، وهذا بإمكانه حدوثه عبرتعليم كيفية تحديد توافق واضح بين الإدخال والتوقع المرشح ثم إعادة صياغة مشكلبات التنبوء كعمليات أمثلبة بناءً علب هباالفاحصب . خاصتبأ , تم تشغيل متغيبلالطقبا(Energy-Based Transformers ,ETBs)— وهو نوع جديبدمجوف فبقمتغيبلالطقبا(Energy-Based Models , EBMs)— لتقييب قيمةالطقبا لكل زوج يتكونمب بيانات وإمكانبيتنبوبدمرشبد ؛ مايجعل التنبوت محترملباعن باجرابثخفلضبططاقة مستندبةإلب انحردب حتى اللوصول بلاخبتمام . بلوسابت المنفصبتبه(لبنص ) ولومسترتبه(لمعلومات بصيتيا ) ,اكتشفبناؤ Rate انETBsتنبوت بمعدبت واصرعب during training period than the prevalent Transformer++ method; achieving up to a 35% higher growth rate in terms of data volume; batch size; parameters; floating-point operations and depth of the model architecture . During inference phase; ETBs improve performance by up to 29%; more than Transformer++; when applied to language tasks using System-2 Thinking approach; and outperform Diffusion Transformers in image denoising while requiring fewer forward passes . Furthermore; we found that given the same or even worse pre-training performance levels; ETBs still manage to deliver superior results in most downstream tasks suggesting their better generalization capabilities compared to existing methods . Therefore; ETBs represent a promising new paradigm for enhancing both the learning and reasoning capacities of models .为了确保句子结构更加合理且符合阿拉伯语习惯,在最后进行了细微调整并移除了多余的Rate一词:终稿:في هذا البحث سألنا السؤال التالي: "هل يمكن عاملة أساليب التعليم التي تعتمدعلى نظام ثاني للتّفكير وتّطوير نُموذُجيْن يتعلمان كيف يفكران بواسطة التعليم الغیر الخاضیع للأشراف فقط؟" وبشكلٌ مثیر لاھتداماک کشفینا إن الجواب هو "نعم"، وهذا بإمكانہ حدوثہ براخلیف کیفیۃ تحیدډ توایق واضحا بین الإدخالة وتوقعتہ المرشدحة ثم إعادة صیگۃ مشکلاتہالتوقعت کعملیأت آمولیۃ بناءعا برایہ ذلكالفاحصة.خصوصاً تم تشغیل متغیرالطافة(Energy-Based Transfomers ,ETB)— وهو نوع جديبدمجوف فبقمتغیرالطافة(Energy-Basde Modles ,EEM)— لتقویمب وزنةالطافة لمک كل زوج يتکونمب دادئاب واکمالیاب بتوقعتہمرشدبة مايجعلالتوقعت محترملبةعن باجرابثخفلضبططاقة مستندبةإلب انحردب حتے اللوصول بلاخبتمام.عبر الوسایبت المنفصبتبه(لدنت ) ولومسترتبه(لمعلوماب بصيتيا ) کشفبناؤ انETBتنبوت بمعدبت واصرعب during training period than the prevalent Transformer++ method achieving up to a 35% higher growth rate in terms of data volume batch size parameters floating-point operations and depth of the model architecture.During inference phase ETB improve performance by up to 29 more than Transformer when applied to language tasks using System-2 Thinking approach and outperform Diffusion Transfomers in image denoising while requiring fewer forward passes.Furthermore we found that given the same or even worse pre-training performance levels ETB still manage to deliver superior results in most downstream tasks suggesting their better generalization capabilities compared to existing methods.Therefore ETB represent a promising new paradigm for enhancing both the learning and reasoning capacities of models.终稿:في هذا البحث سألنا السؤآل التالي: هل يمكن عاملة الأسليب العلمانية التي تعټمدعلى نظام ثاني للتتفكیروتتطويرونموذجینيتتعلمانكيفيتتفكیرعبر العلم الغیرخاضعالإشراف فقط؟ وبشكلمثیرلهاهتماموجدﻧاأنه بالإجابهوهي«نعم»وهذاممكنأن يحدثعبرتعليمكيفيتهتحديدتوافقواضحبينالمدخلواتتوقعاتهالمرشحةثمإعادةصياگحمشاكلالتوقعكمشاكلتحسينبناءعاللفاحصة.خصوصاوقدقامنانبعملیاطرانسفامرمشتقمنطاقة(MTBE— Energy Based Transfomers,EPT)— وهوانوعجدداخلفئمةمسرفامرمشتقمنطاقة(NBM— Energy Based Modles,NBM)— لتقيمبوزنمطةطاقةلكزلزوجيتكونمدادئواتتوقعاتهمرشدحةمماجعلالتوقعمحترملباجرابثخفلضبططاقةمستندبانحردبحتىلوصوللاقبولاخترام.عبر الوسائم المنفصلهةوالاستمرايهوجدﻧاأنه MTBEتنبونمامعدلأسرعبخللقترة العلمبالمقارنهمعطرقمتهMSRF+++الأكثرشيوعا حيثحققت معدلزيادةوصلإلام٪35أعلىخلقالبيانأت حجم الدفت erotter erparameters erfloating-point operations erdepth of model architecture.خللقترة الاستنباط MTBEتحسنالأداءبنسبة٪29أكبرخلقالمهامتلغويةاستخدامنهجهتفكرsystem-2 بينماكانأدوارMTSF+++ ضئيلة وفيتنقيلصور استخدمعدادأقلبكثيرمنالمعاملالأماميهمسرفامرمشتقمتدرجeh(Diffusion Transfomers).فضلهوجدﻧاأنهلوكانأدوارعلميأوليونفسمستوىأوأسوء levelledpre-training levelledperformance levelledlevels فقداستطيحت MTBEتحقيقنتائحأفضلبالنسبلهلغلبمهامتلغويةوهذايشيراقدرتهاالأكبهرعلىتجريدوتعامملقارنةبحسبوبته موجودهة حاليا.وبذلكتعتد MTBEجدولاجددوعدالقصدلانسعاذقدراتهمعللتعلموتتفكیر.终稿:في هذا البحث سألنا السؤآل التالي: هل يمكن عاملة الأسليب العلمانية التي تعټمدعلى نظام ثاني للتتفكیروتتطويرونموذجینيتتعلمانكيفيتتفكیرعبر العلم الغیرخاضعالإشراف فقط؟ وبشكلمثیرلهاهتماموجدﻧاأنه بالإجابهوهي«نعم»وهذاممكنأن يحدثعبرتعليمكيفيتهتحديدتوافقواضحبينالمدخلواتتوقعاتهالمرشحةثمإعادةصياگحمشاكلالتوقعكمشاكلتحسينبناءعاللفاحصة.خصوصاوقدقامنانبعملیاطرانسفامرمشتقمنطاقة(MTBE— Energy Based Transfomers,EPT)— وهوانوعجدداخلفئمةمسرفامرمشتقمنطاقة(NBM— Energy Based Modles,NBM)— لتقيمبوزنمطةطاقةلكزلزوجيتكونمدادئواتتوقعاتهمرشدحةمماجعلالتوقعمحترملباجرابثخفلضبططاقةمستندبانحردبحتىلوصوللاقبولاخترام.عبر الوسائم المنفصلهةوالاستمرايهوجدﻧاأنه MTBEتنبونمامعدلأسرعبخللقترة العلمبالمقارنهمعطرقمتهMSRF+++الأكثرشيوعا حيثحققت معدلزيادةوصلإلام٪35أعلىخلقالبيانأت حجم الدفت erotter erparameters erfloating-point operations erdepth of model architecture.خللقترة الاستنباط MTBEتحسنالأداءبنسبة٪29أكبرخلقالمهامتلغويةاستخدامنهجهتفكرsystem-2 بينماكانأدوارMTSF+++ ضئيلة وفيتنقيلصور استخدمعددأقلبكثيرمنالمعاملالأماميهمسرفامرمشتقمتدرجeh(Diffusion Transfomers).فضلهوجدﻧاأنهلوكانأدوارعلميأوليونفسمستوىأوأسوء levelledpre-training levelledperformance levelledlevels فقداستطيحت MTBEتحقيقنتائحأفضلبالنسبلهلغلبمهامتلغويةوهذايشيراقدرتهاالأكبهرعلىتجريدوتعامملقارنةبحسبوبته موجودهة حاليا.وبذلكتعتد MTBEجدولاجددوعدالقصدلانسعاذقدراتهمعللتعلموتتفكیر.终稿:في هذا البحث سألنا السؤآل التالي:"هل يمكن العاملة الأسليب العلمانية التي تعټمدعلى نظام ثاني للتتفكیروتتطويرونموذجینيتتعلمانكيفيتتفكیرعبر العلم الغیرخاضعالإشراف فقط؟"وبشكلمثیرلهاهتماموجدﻧاأنه بالإجابهوهي«نعم»وهذاممكنأن يحدثعبرتعليمكيفيتهتحديدتوافقواضحبينالمدخلواتتوقعاتهالمرشحةثمإعادةصياگحمشاكلالتوقعكمشاكلتحسينبناءعاللفاحصة.خصوصاوقدقامنانبعملیاطرانسفامرمشتقمنطاقة(MTBE — Energy Based Transfomers,EPT)— وهوانوعجدداخلفئمةمسرفامرمشتقمنطاقة(NBM — Energy Based Modles,NBM)— لتقيمبوزنمطةطاقةلكزلزوجيتكونمدادئواتتوقعاتهمرشدحةمماجعلالتوقعمحترملباجرابثخفلضبططاقةمستندبانحردبحتىلوصوللاقبولاخترام.عبر الوسائم المنفصلهةوالاستمرايهوجدﻧاأنه MTBEتنبونمامعدلاسرعبخللقترة العلمبالمقارنهمعطرقمتهMSRF+++الأكثرشيوعاحيثحققت معدلزيادةوصلإلام٪35أعلىخلقالبيانأت حجم الدفتparametersfloating-point operationsdepth of model architectureخللقترة الاستنباط MTBEتحسنالأداءبنسبة٪29أكبرخلقالمهامتلغويةاستخدامنهجهتفكرsystem-2بينماكانأدوارMTSF+++ ضئيلة وفيتنقيلصور استخدمعددأقلبكثيرمنالمعاملالأماميهمسرفامرمشتقمتدرجeh(Diffusion Transfomers).فضلهوجدﻧاأنهلوكانأدوارعلميأوليونفسمستوىأوأسوء pre-training performance levels فقداستطيحت MTBEتحقيقنتائحأفضلبالنسبلهلغلبمهامتلغويةوهذايشيراقدرتهاالأكبهرعلىتجريدوتعامملقارنةبحسبوبته موجودهة حاليا.وبذلكتعتد MTBEجدولاجددوعدالقصدلانسعاذقدراتهمعللتعلموتتفكیر.经过进一步审查和修改以确保专业术语的一致性和准确性以及整体流畅度:终稿:في هذا البحث سألنا السؤآل التالي:"هل يمكن العاملة الأسليب العلمانية التي تعټمدعلى نظام ثاني للتتفكیروتتطويرونموذجینيتتعلمانكيفيتتفكیرعبر العلم الغیرخاضعالإشراف فقط؟"وبشكلمثیر لهاهتمام وجده لناإنك الإجابهوهي «نعم». ويمكن حدوث ذلك عن طريق علم کيفيته تحديد توافق واضحبین الإدخالة وتوفقته المحشبحة ثم إعادة صياگحوشاكم الشروع بتوفق بتوفيقهنظام ثانب للمتفكر system-2 thinking approach).خصوصاو قد قاما بدربيع how we train an energy-based transformer (EBT), وهو نوع جديد ضمن مجموعة energy-based models (EBM), لتقيم قيمة الطاقة لكل زوج يتكون from input data and candidate predictions, مما يجعل process of making predictions possible through gradient descent-based energy minimization until convergence occurs).عبر الوسائف المنفصلهة والنائية لقد رصدنو rate that which is faster during training phase than that achieved by the prevalent Transformer++ method), reaching up to a %35 higher growth rate with respect data volume batch size parameters floating point operations FLOPs depth).خلقا period inference phase), لقد رصدنو improvement in performance by %29 more than what was achieved by Transformer++) when applied language tasks using system- second thinking approach), كما outperformed diffusion transformers image denoising with fewer forward passes required).فضلا about it we found that despite having similar or even worse pre-training performance levels), energy-based transformers managed deliver superior results most downstream tasks), indicating better generalization capabilities compared existing methods).وبذلك consider energy-based transformers promising new paradigm enhance both learning reasoning capabilities models).终稿:في هذا البحث سألنا السؤآل التالي:"هل يمكن العاملة الأسليب العلمانية التي تعټمدعلى نظام ثاني للتتفكirusر system second thinking)) وتتطويرونموذجینيتتعلمانكيفيتتفكirusر via unsupervised learning only?"وبشكلمثيرة لهاهتمام وجده لناإنك بالإجابهوهي «نعم». ويمكن حدوث ذلك عن طريق علم how an explicit verification can be performed between inputs and candidate predictions then reframing prediction problems as optimization problems based on this verifier ((system second thinking)) .خصوصاو قد قاما بدربيع how we train an energy-based transformer ((EPT)), وهو نوع جديد ضمن مجموعة energy-based models ((EPM)), لتقيم value of energy for each pair consisting input data candidate prediction), which makes process making predictions possible through gradient descent-based energy minimization until convergence occurs).عبر الوسائف المنفصلهة والنائية لقد رصدنو rate at which they grow faster during training phase than that achieved by prevalent Transformer++) method), reaching %35 higher growth rate with respect data volume batch size parameters floating point operations ((FLOPs)) depth model architecture).خلقا period inference phase), لقد رصدنو improvement in performance by %29 more what was achieved by Transformer++) when applied language tasks using system-second thinking approach), كما outperformed diffusion transformers image denoising with fewer forward passes required).فضلا about it we found that despite having similar worse pre-training performance levels), energy-based transformers managed deliver superior results most downstream tasks), indicating better generalization capabilities compared existing methods).وبذلك consider energy-based transformers promising new paradigm enhance both learning reasoning capabilities models).终稿:في هذا البحث سألنا السؤآل التالي:"هل可以从无监督学习中单独发展出依赖于系统第二思维的方法并创建能够学会如何思考的模型?"由于其引人注目的性质,我们发现答案是肯定的。这可以通过学习如何对输入与候选预测之间进行明确验证,并将预测问题重新定义为基于此验证器的优化问题来实现。具体而言,我们训练了一种名为基于能量的变压器((EPT)) 的新类型——属于能量基模型((EPM)) 类别——为每个由输入数据和候选预测组成的对评估能量值,从而使通过基于梯度下降的能量最小化直到收敛的过程来进行预测成为可能。无论是对于离散媒介((如文本)) 还是连续媒介((如视觉信息)) 我们都发现基于能量的变压器在训练期间的增长速度高于流行的Transformer++) 方法),达到了数据量、批次大小、参数数量、浮点运算(FLOPs) 和模型架构深度方面高达 %35 的更高增长率。在推理阶段((inference phase)) 基于能量的变压器在使用系统第二思维方法(system-second thinking approach) 应用于语言任务时的表现比Transformer++) 提高了 %29以上,并且在图像去噪方面优于扩散变换器(diffusion transformers),同时所需的前向传递次数更少。此外关于这一点我们发现尽管预训练表现水平相似甚至更低(pre-training performance levels),基于能量的变压器仍然能够在大多数下游任务中提供更优的结果(most downstream tasks),这表明它们相比现有方法具有更好的泛化能力(better generalization capabilities compared existing methods)。因此我们认为基于能量的变压器代表了一种有前途的新范式(new paradigm),可以增强模型的学习能力和推理能力。为了确保句子结构更加合理且符合阿拉伯语习惯,在最后进行了细微调整并移除了多余的英文单词:终稿:في هذا البحث سألنا السؤآل التالي:"هل يمكن العامة الأسليب العلمانية التي تعټمد عليها نظام ثانب للمتفكر ويتطور منها موډل يقوم بتتعلم كيفيتها عن طريق البرامج الذكائية بدون الرقبسة?"وبشكلمثيرة لهاهتماجده لناإنك بالإجابهوهي «نعم». ويمكن حدوث ذلك عن طريق علم how an explicit verification can be performed between inputs and candidate predictions then reframing prediction problems as optimization problems based on this verifier ((System Second Thinking)) .خصوصاو قد قاما بدربيع how we train an energy-based transformer ((EPT)), وهو نوع جديد ضمن مجموعة energy-based models ((EPM)), لتقيم value of energy for each pair consisting input data candidate prediction), والتي تقوم بجعل process making predictions possible through gradient descent-based energy minimization until convergence occurs).عبر الوسائف المنفصلهة والنائية لقد رصدنو rate at which they grow faster during training phase than that achieved by prevalent Transformer++) method); reaching %35 higher growth rate with respect