Ein tiefes Kaskadenmodell für die Mehrdokumenten-Leseverständnis

Bei der Entwicklung eines Online-Frage-Antwort-Systems muss ein grundlegender Kompromiss zwischen Effektivität und Effizienz eingegangen werden. Die Effektivität resultiert aus fortschrittlichen Funktionen wie dem extraktiven maschinellen Leseverständnis (MRC), während die Effizienz durch Verbesserungen in den vorläufigen Retrieval-Komponenten, wie der Auswahl von Kandidatendokumenten und der Rangfolge von Absätzen, erreicht wird. Angesichts der Komplexität des realweltlichen Szenarios des mehrfachen Dokumentleseverständnisses ist es schwierig, beide Aspekte in einem End-to-End-System gleichzeitig zu optimieren. Um dieses Problem zu lösen, entwickeln wir ein neues tiefes Kaskaden-Lernmodell, das schrittweise vom Dokument- und Absatz-Level-Ranking der Kandidaten texte zum präziseren Antwortextraktionsprozess mit maschinellen Leseverständnis fortschreitet. Insbesondere werden irrelevante Dokumente und Absätze zunächst mit einfachen Funktionen gefiltert, um die Effizienz zu gewährleisten. Anschließend trainieren wir drei Module auf den verbleibenden Texten gemeinsam, um die Antwort besser zu verfolgen: das Dokumentextraktionsmodul, das Absatzextraktionsmodul und das Antwortextraktionsmodul. Die Experimentsergebnisse zeigen, dass die vorgeschlagene Methode die bisher besten Methoden auf zwei großen mehrfachdokumentierten Benchmark-Datensätzen übertrifft, nämlich TriviaQA und DuReader. Darüber hinaus kann unser Online-System typische Szenarien stabil bedienen, bei denen täglich Millionen von Anfragen in weniger als 50 Millisekunden bearbeitet werden müssen.