Iteratives hierarchisches Aufmerksamkeitsmodell zur Beantwortung komplexer Fragen über lange Dokumente

Wir stellen ein neues Modell, DocHopper, vor, das iterativ verschiedene Teile langer, hierarchisch strukturierter Dokumente anspricht, um komplexe Fragen zu beantworten. Ähnlich wie Multi-Hop-Frage-Antwort-Systeme verwendet DocHopper in jedem Schritt eine Abfrage $q$, um Informationen aus einem Dokument zu lokalisieren, kombiniert diese „abgerufenen“ Informationen mit $q$, um die nächste Abfrage zu generieren. Im Gegensatz zu den meisten vorherigen Multi-Hop-QA-Systemen ist DocHopper jedoch in der Lage, entweder kurze Textpassagen oder längere Abschnitte des Dokuments „abzurufen“, wodurch ein mehrstufiger Prozess der „Navigation“ durch ein langes Dokument nachgeahmt wird. Um dieses neuartige Verhalten zu ermöglichen, kombiniert DocHopper die Dokumentinformationen nicht durch Textkonkatenation mit der Abfrage $q$, sondern durch die Kombination einer kompakten neuronale Repräsentation von $q$ mit einer kompakten neuronale Repräsentation einer hierarchisch strukturierten Dokumentkomponente – die potenziell sehr groß sein kann. Wir testen DocHopper an vier verschiedenen QA-Aufgaben, die das Lesen langer und komplexer Dokumente erfordern, um Multi-Hop-Fragen zu beantworten, und zeigen, dass DocHopper auf drei der Datensätze Zustand-des-Kunst-Ergebnisse erzielt. Zudem ist DocHopper während der Inferenzzeit effizient und ist 3–10 Mal schneller als die Baseline-Modelle.