Entailment als Few-Shot-Lerner

Große vortrainierte Sprachmodelle (LMs) haben eine bemerkenswerte Fähigkeit als Few-Shot-Learner gezeigt. Ihr Erfolg hängt jedoch in großem Maße von der Skalierung der Modellparameter ab, was die Trainierung und Bereitstellung erheblich erschwert. In dieser Arbeit schlagen wir einen neuen Ansatz vor, den wir EFL nennen, der es ermöglicht, kleine LMs zu besseren Few-Shot-Learnern zu machen. Das Kernkonzept dieses Ansatzes besteht darin, potenzielle NLP-Aufgaben in eine Entailment-Aufgabe umzuformulieren und das Modell dann mit so wenig wie 8 Beispielen weiterzutrainieren. Wir zeigen ferner, dass unser vorgeschlagener Ansatz (i) natürlicherweise mit einer auf unüberwachtem kontrastiven Lernen basierenden Datenverstärkungsmethode kombiniert werden kann; (ii) leicht auf multilinguale Few-Shot-Learning erweitert werden kann. Eine systematische Auswertung anhand von 18 standardisierten NLP-Aufgaben zeigt, dass dieser Ansatz die verschiedenen bestehenden state-of-the-art Few-Shot-Learning-Methoden um 12 % verbessert und wettbewerbsfähige Few-Shot-Leistung bei einem 500-fachen kleineren Modell wie GPT-3 erzielt.