Die Nutzung der Kraft der Multi-Task-Prätrainierung für Erklärungen auf Wahrheitsniveau im Bereich natürlicher Sprache

Natürliche Spracherklärungen versprechen, intuitiv verständliche Erklärungen des Entscheidungsprozesses neuronaler Netze in komplexen visuell-sprachlichen Aufgaben bereitzustellen, wie sie in jüngsten VL-NLE-Modellen verfolgt werden. Obwohl aktuelle Modelle beeindruckende Leistungen hinsichtlich Aufgabenpräzision und Plausibilität der Erklärungen erzielen, leiden sie unter einer Reihe von Problemen: Einige Modelle verfügen über eine modulare Architektur, bei der der Erklärungsgenerierungsmodul schlecht mit einem getrennten Modul zur Aufgabenantwortvorhersage integriert ist, nutzen Backbone-Modelle, die auf begrenzten Aufgabensets trainiert wurden, oder setzen ad-hoc-Lösungen ein, um die Leistung auf einzelnen Datensätzen zu steigern. Wir schlagen vor, diese Einschränkungen zu umgehen, indem wir jüngste Fortschritte im großskaligen, mehraufgabenbasierten Vortraining generativer Transformer-Modelle auf das Problem der VL-NLE-Aufgaben anwenden. Unser Ansatz übertrifft neuere Modelle deutlich, wobei menschliche Bewertende die generierten Erklärungen in zwei von drei evaluierten Datensätzen sogar der Ground-Truth vorzogen. Als eine neue Herausforderung im Bereich der VL-NLE-Forschung schlagen wir das Problem des mehraufgabenbasierten VL-NLE vor und zeigen, dass die gleichzeitige Ausbildung auf mehreren Aufgaben die Qualität der Erklärungen verbessern kann. Wir diskutieren die ethischen Implikationen der Erzeugung hochwertiger NLE sowie weiterer Probleme in der aktuellen VL-NLE-Forschung.