بيكارد: التحليل التدريجي لاستخلاص التوليد العكسي المُقيّد من نماذج اللغة

النماذج اللغوية الكبيرة المُدرَّبة مسبقًا للبيانات النصية تمتلك فضاءً خرج غير محدود؛ حيث يمكنها في كل خطوة توليد أي من عشرات الآلاف من الرموز الجزئية في كل خطوة من خطوات التحليل التلقائي. عند تدريبها بدقة على لغات رسمية محددة مثل SQL، غالبًا ما تُنتج هذه النماذج كودًا غير صالح، مما يجعله غير قابل للاستخدام. نقترح منهجية PICARD (متوفرة كرمز ونماذج مدربة عبر الرابط https://github.com/ElementAI/picard)، وهي طريقة لفرض قيود على مشغلات التحليل التلقائي للنماذج اللغوية من خلال التحليل التدريجي. تساعد PICARD في اكتشاف تسلسلات خرج صالحة من خلال رفض الرموز غير المقبولة في كل خطوة من خطوات التحليل. على مهام التحويل النصي-إلى-SQL الصعبة مثل Spider وCoSQL، نُظهر أن PICARD تحوّل نماذج T5 المُدرَّبة بدقة والتي تُظهر أداءً مقبولًا إلى حلول من الطراز الرائد في مجالها.