Command Palette
Search for a command to run...
مجموعة بيانات معيارية لعلم الأحياء لنموذج لغة مختبر LAB
Date
Size
Paper URL
هناك تفاؤل واسع النطاق بأن نماذج اللغة الكبيرة المتطورة (LLMs) والأنظمة المعززة بـ LLM لديها القدرة على تسريع الاكتشاف العلمي بسرعة عبر مجموعة واسعة من التخصصات. توجد اليوم العديد من المعايير التي تقيس المعرفة والقدرة على التفكير لدى طلاب الماجستير في القانون فيما يتعلق بالمشكلات العلمية الموجودة في الكتب المدرسية، ولكن يتم استخدام عدد قليل من المعايير لتقييم أداء نماذج اللغة في المهام العملية المطلوبة للبحث العلمي، مثل استرجاع الأدبيات، وتخطيط البروتوكول، وتحليل البيانات.
كخطوة أولى في إرساء مثل هذا المعيار، أطلق فريق البحث من FutureHouse معيار بيولوجيا وكيل اللغة (LAB-Bench) في عام 2024. تحتوي مجموعة البيانات هذه على أكثر من 2400 سؤال متعدد الاختيارات لتقييم أداء أنظمة الذكاء الاصطناعي في سلسلة من قدرات البحث البيولوجي العملي، بما في ذلك استرجاع الأدبيات وقدرات الاستدلال، وقدرات تفسير البيانات، والقدرة على الوصول إلى قواعد البيانات والتنقل فيها، والقدرة على فهم تسلسلات الحمض النووي والبروتين والتحكم فيها، وما إلى ذلك. نتائج الورقة ذات الصلة هيLAB-Bench: قياس قدرات نماذج اللغة في أبحاث علم الأحياء"
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.