HyperAIHyperAI
vor 2 Monaten

Die Überbrückung der Leistungslücke zwischen DETR und R-CNN für die grafische Objekterkennung in Dokumentbildern

Shehzadi, Tahira ; Hashmi, Khurram Azeem ; Stricker, Didier ; Liwicki, Marcus ; Afzal, Muhammad Zeshan
Die Überbrückung der Leistungslücke zwischen DETR und R-CNN für die grafische Objekterkennung in Dokumentbildern
Abstract

Dieses Papier macht einen wichtigen Schritt, um die Leistungslücke zwischen DETR und R-CNN bei der grafischen Objekterkennung zu schließen. Bestehende Ansätze für grafische Objekterkennung haben in den letzten Jahren durch Verbesserungen in CNN-basierten Erkennungsmethoden erhebliche Fortschritte gemacht. Kürzlich haben Transformer-basierte Detektoren die generelle Objekterkennungsleistung erheblich gesteigert, wodurch die Notwendigkeit von manuell erstellten Merkmalen oder Nachbearbeitungsschritten wie Non-Maximum Suppression (NMS) durch Objektanfragen beseitigt wurde. Allerdings ist die Effektivität solcher verbesserten Transformer-basierter Erkennungsalgorithmen für das Problem der grafischen Objekterkennung noch nicht überprüft worden. Inspiriert von den neuesten Fortschritten im DETR setzen wir den existierenden Erkennungstransformer mit wenigen Modifikationen für die grafische Objekterkennung ein. Wir modifizieren die Objektanfragen auf verschiedene Weisen, indem wir Punkte, Ankerboxen verwenden und positive und negative Rauschen zu den Ankerboxen hinzufügen, um die Leistung zu steigern. Diese Modifikationen ermöglichen eine bessere Handhabung von Objekten unterschiedlicher Größe und Seitenverhältnisse, erhöhen die Robustheit gegenüber kleinen Veränderungen in den Positionen und Größen der Objekte sowie verbessern die Unterscheidbarkeit zwischen Objekten und Nicht-Objekten in Bildern. Wir evaluieren unseren Ansatz anhand vierer grafischer Datensätze: PubTables, TableBank, NTable und PubLaynet. Durch die Integration der Anfrage-Modifikationen in DETR übertreffen wir frühere Arbeiten und erreichen neue Standartwerte (state-of-the-art results) mit einem mAP von 96,9 %, 95,7 % und 99,3 % auf TableBank, PubLaynet und PubTables jeweils. Die Ergebnisse aus umfangreichen Abstraktionsstudien zeigen, dass Transformer-basierte Methoden für Dokumentanalyse ähnlich effektiv sind wie bei anderen Anwendungen. Wir hoffen, dass diese Studie mehr Aufmerksamkeit auf die Forschung zur Verwendung von Erkennungstransformern in der Analyse von Dokumentbildern lenkt.