HyperAIHyperAI
vor 11 Tagen

Adversarial GLUE: Ein Multi-Task Benchmark zur Robustheitsbewertung von Sprachmodellen

Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo Li
Adversarial GLUE: Ein Multi-Task Benchmark zur Robustheitsbewertung von Sprachmodellen
Abstract

Großskalige vortrainierte Sprachmodelle haben bei einer Vielzahl von Aufgaben im Bereich der natürlichen Sprachverstehens (Natural Language Understanding, NLU) erhebliche Erfolge erzielt, ja sogar menschliche Leistung übertroffen. Dennoch zeigen jüngere Studien, dass die Robustheit dieser Modelle durch sorgfältig konstruierte textuelle adversarische Beispiele gefährdet werden kann. Obwohl mehrere einzelne Datensätze vorgeschlagen wurden, um die Robustheit von Modellen zu evaluieren, fehlt weiterhin ein systematischer und umfassender Benchmark. In diesem Paper stellen wir Adversarial GLUE (AdvGLUE) vor – einen neuen, mehraufgabenbasierten Benchmark, der es ermöglicht, die Anfälligkeit moderner großskaliger Sprachmodelle gegenüber verschiedenen Arten adversarischer Angriffe quantitativ und umfassend zu untersuchen und zu bewerten. Insbesondere wenden wir systematisch 14 textuelle adversarische Angriffsmethoden auf die GLUE-Aufgaben an, um AdvGLUE zu erstellen, das anschließend durch menschliche Validierung zur Gewährleistung zuverlässiger Annotationen überprüft wurde. Unsere Ergebnisse lassen sich wie folgt zusammenfassen: (i) Die meisten bestehenden adversarischen Angriffsalgorithmen neigen dazu, ungültige oder mehrdeutige adversarische Beispiele zu erzeugen, wobei etwa 90 % dieser Beispiele entweder die ursprüngliche Semantik verändern oder menschliche Annotatoren irreleiten. Daher führen wir einen sorgfältigen Filterprozess durch, um einen hochwertigen Benchmark zu erstellen. (ii) Alle von uns getesteten Sprachmodelle und Methoden zur robusten Ausbildung erzielen auf AdvGLUE nur schlechte Ergebnisse, wobei ihre Leistung deutlich unter der benignen Genauigkeit liegt. Wir hoffen, dass unsere Arbeit die Entwicklung neuer adversarischer Angriffe fördert, die unauffälliger und semantisch besser erhalten sind, sowie die Entwicklung robusterer Sprachmodelle gegen anspruchsvolle adversarische Angriffe. AdvGLUE ist unter https://adversarialglue.github.io verfügbar.

Adversarial GLUE: Ein Multi-Task Benchmark zur Robustheitsbewertung von Sprachmodellen | Neueste Forschungsarbeiten | HyperAI