Erzeugung vielfältiger und konsistenter QA-Paare aus Kontexten mit informationsmaximierenden hierarchischen bedingten VAEs

Eine der wichtigsten Herausforderungen im Bereich der Frage-Antwort-Systeme (QA) ist die Knappheit an etikettierten Daten, da es aufwendig und kostspielig ist, Frage-Antwort-Paare (QA-Paare) für ein Zieltextdomänen durch menschliche Annotation zu erzeugen. Ein alternativer Ansatz zur Bewältigung dieses Problems besteht darin, automatisch generierte QA-Paare entweder aus dem Problemkontext oder aus großen Mengen unstrukturierter Texte (z.B. Wikipedia) zu verwenden. In dieser Arbeit schlagen wir einen hierarchischen bedingten Variational Autoencoder (HCVAE) vor, um QA-Paare unter Berücksichtigung unstrukturierter Texte als Kontext zu generieren, wobei die gegenseitige Information zwischen den generierten QA-Paaren maximiert wird, um ihre Konsistenz sicherzustellen. Wir validieren unseren Informationsmaximierenden hierarchischen bedingten Variational Autoencoder (Info-HCVAE) auf mehreren Benchmark-Datensätzen, indem wir die Leistung des QA-Modells (BERT-base) evaluiert werden, das nur mit den generierten QA-Paaren (QA-basierte Evaluierung) oder sowohl mit den generierten als auch mit menschlich etikettierten Paaren (halbüberwachtes Lernen) trainiert wurde, im Vergleich zu Stand-of-the-Art-Basismodellen. Die Ergebnisse zeigen, dass unser Modell in beiden Aufgaben erstaunliche Leistungsverbesserungen gegenüber allen Basismodellen erzielt, indem es nur einen Bruchteil der Daten für das Training verwendet.