جالاكتيكا: نموذج لغوي كبير للعلوم

الإفراط في المعلومات هو عقبة رئيسية أمام التقدم العلمي. لقد جعل النمو المتسارع في الأدبيات والبيانات العلمية اكتشاف الرؤى المفيدة في كميات هائلة من المعلومات أكثر صعوبةً من أي وقت مضى. اليوم، يتم الوصول إلى المعرفة العلمية عبر محركات البحث، ولكنها غير قادرة على تنظيم المعرفة العلمية بمفردها. في هذا البحث، نقدم غالاكتيكا: نموذج لغوي كبير يمكنه تخزين ودمج واستنتاج المعرفة العلمية. نقوم بالتدريب على مجمع علمي كبير يشمل الأوراق العلمية، المواد المرجعية، قواعد البيانات والمصادر الأخرى الكثيرة. نتفوق على النماذج الموجودة في مجموعة متنوعة من المهام العلمية. فيما يتعلق بالاستفسارات المتعلقة بالمعرفة التقنية مثل معادلات LaTeX (لا تك)، تتفوق غالاكتيكا على أحدث نموذج GPT-3 بنسبة 68.2٪ مقابل 49.0٪. كما تتميز غالاكتيكا بأدائها الجيد في الاستدلال، حيث تتفوق على تشينتشيلا في الاختبارات الرياضية MMLU بنسبة 41.3٪ مقابل 35.7٪، وعلى PaLM 540B في اختبار MATH بنتيجة 20.4٪ مقابل 8.8٪. كما أنها تحدد مستوى جديد للتقنية في المهام اللاحقة مثل PubMedQA و MedMCQA dev بنسبة 77.6٪ و 52.9٪ على التوالي. وحتى رغم عدم تدريبها على مجمع عام، فإن غالاكتيكا تتفوق على BLOOM و OPT-175B في BIG-bench. نعتقد أن هذه النتائج تظهر الإمكانات التي يمكن أن توفرها النماذج اللغوية كواجهة جديدة للعلوم. وقد أطلقنا كود المصدر للنموذج لفائدة المجتمع العلمي.请注意,LaTeX 在阿拉伯语中通常写作 "لا تك",这是其常见的缩写形式。其他术语如 GPT-3, Chinchilla, MMLU, PaLM, PubMedQA, MedMCQA, BIG-bench 等在阿拉伯语中通常保留英文原名。