T-Projection: إسقاط التسمية عالي الجودة للمهام المصنفة تسلسليًا

في غياب البيانات المصنفة جاهزة لمهام التسمية المتسلسلة ولغة معينة، تم اقتراح إسقاط التسميات كأحد الاستراتيجيات الممكنة لتوليد بيانات مصنفة تلقائيًا. غالبًا ما يتم صياغة إسقاط التسميات كمهمة نقل العلامات المتعلقة بفترة معينة في اللغة المصدر إلى الفاصلة المقابلة لها في اللغة الهدف، باستخدام مجموعات نصوص متوازية. في هذا البحث، نقدم T-Projection، وهو منهج جديد لإسقاط التسميات يستفيد من النماذج اللغوية الكبيرة المدربة مسبقًا للتوفير بين النصوص وتقنيات الترجمة الآلية الحديثة. يفكك T-Projection مهمة إسقاط التسميات إلى مهمتين فرعيتين: (i) خطوة توليد المرشحين، حيث يتم توليد مجموعة من المرشحين للإسقاط باستخدام نموذج T5 متعدد اللغات (Multilingual T5)، و (ii) خطوة اختيار المرشحين، حيث يتم تصنيف المرشحين المولدين بناءً على احتمالات الترجمة. أجرينا تجارب على مهام داخلية وخارجية في خمس لغات الهندوأوروبية وثماني لغات أفريقية ذات المصادر القليلة. أظهرنا أن T-Projection يتفوق بشكل كبير على طرق إسقاط التسميات السابقة. نعتقد أن T-Projection يمكن أن يساعد في تخفيف نقص البيانات التدريبية عالية الجودة لمهام التسمية المتسلسلة بشكل آلي. الرمز والبيانات متاحان بشكل عام.