vor 17 Tagen

InfoBERT: Verbesserung der Robustheit von Sprachmodellen aus einer informationstheoretischen Perspektive

Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li, Jingjing Liu

Abstract

Großskalige Sprachmodelle wie BERT haben auf einer Vielzahl von NLP-Aufgaben state-of-the-art-Leistungen erzielt. Neuere Studien zeigen jedoch, dass solche auf BERT basierende Modelle anfällig für textbasierte adversarielle Angriffe sind. Wir zielen darauf ab, dieses Problem aus einer informationstheoretischen Perspektive anzugehen und stellen InfoBERT, einen neuartigen Lernframework zur robusteren Feinabstimmung vortrainierter Sprachmodelle, vor. InfoBERT enthält zwei auf der gegenseitigen Information basierende Regularisierer für den Modelltraining: (i) einen Information-Bottleneck-Regularisierer, der geräuschebehaftete gegenseitige Informationen zwischen Eingabe und Merkmalsdarstellung unterdrückt; und (ii) einen Robust-Feature-Regularisierer, der die gegenseitige Information zwischen lokalen robusten Merkmalen und globalen Merkmalen erhöht. Wir bieten eine konsistente theoretische Grundlage, um die Robustheit der Merkmalslernung für Sprachmodelle sowohl im Standard- als auch im adversariellen Training zu analysieren und zu verbessern. Umfangreiche Experimente zeigen, dass InfoBERT auf mehreren adversariellen Datensätzen für Aufgaben im Bereich Natural Language Inference (NLI) und Fragebeantwortung (QA) eine state-of-the-art Robustheitsgenauigkeit erreicht. Unser Code ist unter https://github.com/AI-secure/InfoBERT verfügbar.