vor 8 Monaten

Haofu Liao Aruni RoyChowdhury Weijian Li Ankan Bansal Yuting Zhang Zhuowen Tu Ravi Kumar Satzoda R. Manmatha Vijay Mahadevan

Zusammenfassung

Wir präsentieren eine neue Formulierung für die strukturierte Informationsextraktion (SIE) aus visuell reichhaltigen Dokumenten. Diese Formulierung soll die Einschränkungen bestehender IOB-Tagging- oder graphbasierter Ansätze überwinden, die entweder stark von der korrekten Reihenfolge des Eingabetexts abhängig sind oder Schwierigkeiten haben, einen komplexen Graphen zu dekodieren. Inspiriert durch anchor-basierte Objekterkennungssysteme im Bereich der Bildverarbeitung, stellen wir eine Entität als ein Ankerwort und ein Begrenzungsrechteck dar und modellieren das Verknüpfen von Entitäten als Assoziation zwischen Ankerwörtern. Dies ist robuster gegenüber der Textreihenfolge und ermöglicht es, einen kompakten Graphen für das Verknüpfen von Entitäten aufrechtzuerhalten. Die Formulierung motiviert uns, 1) den DOCument TRansformer (DocTr) einzuführen, der darauf abzielt, Entitätsbegrenzungsrechtecke in visuell reichhaltigen Dokumenten zu erkennen und zu verknüpfen, sowie 2) eine einfache Vortrainingsstrategie, die das Lernen der Entitätsdetektion im Kontext von Sprache unterstützt. Auswertungen anhand dreier SIE-Benchmarks zeigen die Effektivität der vorgeschlagenen Formulierung, wobei der insgesamt angewandte Ansatz bestehende Lösungen übertrifft.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Haofu Liao Aruni RoyChowdhury Weijian Li Ankan Bansal Yuting Zhang Zhuowen Tu Ravi Kumar Satzoda R. Manmatha Vijay Mahadevan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Haofu Liao Aruni RoyChowdhury Weijian Li Ankan Bansal Yuting Zhang Zhuowen Tu Ravi Kumar Satzoda R. Manmatha Vijay Mahadevan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

DocTr: Document Transformer für die strukturierte Informationsextraktion in Dokumenten | Paper | HyperAI

Command Palette

DocTr: Document Transformer für die strukturierte Informationsextraktion in Dokumenten

Haofu Liao Aruni RoyChowdhury Weijian Li Ankan Bansal Yuting Zhang Zhuowen Tu Ravi Kumar Satzoda R. Manmatha Vijay Mahadevan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DocTr: Document Transformer für die strukturierte Informationsextraktion in Dokumenten

Haofu Liao Aruni RoyChowdhury Weijian Li Ankan Bansal Yuting Zhang Zhuowen Tu Ravi Kumar Satzoda R. Manmatha Vijay Mahadevan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DocTr: Document Transformer für die strukturierte Informationsextraktion in Dokumenten

Haofu Liao Aruni RoyChowdhury Weijian Li Ankan Bansal Yuting Zhang Zhuowen Tu Ravi Kumar Satzoda R. Manmatha Vijay Mahadevan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters