Ein burstiness-bewusster Ansatz zur Dokumenten-Datierung

Eine Vielzahl etablierter Anwendungen, wie zeitliche Suche, Ereigniserkennung und Trendidentifikation, setzen die Kenntnis des Zeitstempels jedes Dokuments in einer gegebenen Textkollektion voraus. In vielen Fällen sind die erforderlichen Zeitstempel jedoch entweder nicht verfügbar oder mehrdeutig. Ein typisches Beispiel für dieses Problem tritt im Kontext großer Repositorien altgedruckter, digitalisierter Dokumente auf. Für solche Dokumente kann der Zeitstempel während des Digitalisierungsprozesses beschädigt worden sein oder einfach nicht vorhanden sein. In diesem Artikel untersuchen wir die Aufgabe der Approximation des Zeitstempels eines Dokuments, sogenannte Dokumenten-Datierung. Wir stellen eine inhaltbasierte Methode vor und nutzen neuere Fortschritte im Bereich der Begriffsburstiness, die es uns ermöglichen, die Nachteile herkömmlicher Methoden zur Dokumenten-Datierung zu überwinden, beispielsweise die starre Zeitintervallpartitionierung. Wir validieren die Wirksamkeit und Vorteile unserer Methode durch eine umfassende experimentelle Evaluation auf mehreren Datensätzen und zeigen, dass unsere Methode die derzeitigen State-of-the-Art-Verfahren für die Dokumenten-Datierung übertrifft.