Erweitern von Dokumentendarstellungen für die dichte Suche durch Interpolation und Störung

Dichte Retrieval-Modelle, die darauf abzielen, für eine Eingabeabfrage im Raum dichter Repräsentationen das relevanteste Dokument zu finden, haben aufgrund ihrer bemerkenswerten Erfolge erhebliche Aufmerksamkeit erlangt. Dennoch erfordern dichte Modelle eine große Menge an gelabelten Trainingsdaten, um eine herausragende Leistung zu erzielen, während die Beschaffung von von Menschen annotierten Paaren aus Abfrage und Dokument oft herausfordernd ist. Um dieses Problem anzugehen, schlagen wir einen einfachen, aber effektiven Rahmen für die Dokumenten-Augmentation im dichten Retrieval (Document Augmentation for dense Retrieval, DAR) vor, der die Repräsentationen von Dokumenten durch Interpolation und Störung erweitert. Wir validieren die Leistungsfähigkeit von DAR anhand zweier Benchmark-Datensätze im Bereich der Retrieval-Aufgaben und zeigen, dass der vorgeschlagene DAR sowohl bei der dichten Repräsentation von gelabelten als auch von unlabeled Dokumenten signifikant gegenüber relevanten Baselines abschneidet.