LinkBERT: تدريب نماذج اللغة باستخدام روابط الوثائق

يمكن للنماذج اللغوية (LM) التعلم المسبق أن تتعلم معرفة متنوعة من مجموعات النصوص، مما يساعد في المهام اللاحقة. ومع ذلك، فإن الأساليب الحالية مثل نموذج BERT تقوم بتمثيل وثيقة واحدة فقط ولا تلتقط الارتباطات أو المعرفة التي تمتد عبر الوثائق. في هذا العمل، نقترح LinkBERT، وهو طريقة تعلم مسبق لنماذج اللغة تستفيد من الروابط بين الوثائق، مثل الروابط الفائقة. بناءً على مجموعة نصية معينة، نعتبرها كرسم بياني للوثائق وننشئ مدخلات نموذج اللغة بوضع الوثائق المرتبطة في نفس السياق. ثم نقوم بتدريب النموذج اللغوي بشكل مسبق باستخدام هدفين ذاتيين مشتركين: نمذجة اللغة المقنّعة واقتراحنا الجديد، التنبؤ بالعلاقة بين الوثائق. نظهر أن LinkBERT يتفوق على BERT في مجموعة متنوعة من المهام اللاحقة عبر مجالين: المجال العام (تم تدريبه بشكل مسبق على ويكيبيديا مع الروابط الفائقة) والمجال الطبي الحيوي (تم تدريبه بشكل مسبق على PubMed مع روابط الاستشهادات). يعد LinkBERT فعالًا بشكل خاص في الاستدلال متعدد الخطوات والأسئلة والأجوبة القليلة الإطلاق (+5% تحسن مطلق في HotpotQA وTriviaQA)، وقد حقق نموذجنا الطبي الحيوي BioLinkBERT أفضل النتائج الجديدة في مجموعة متنوعة من مهمات BioNLP (+7% في BioASQ وUSMLE). سنقوم بإصدار نماذجنا المدربة بشكل مسبق، LinkBERT وBioLinkBERT، بالإضافة إلى الكود والبيانات على https://github.com/michiyasunaga/LinkBERT.