Projektvorstellung

GOT-OCR-2.0 Dies ist ein einheitliches End-to-End-Modell, das auf der allgemeinen OCR-Theorie basiert und die Genauigkeit und Effizienz der optischen Zeichenerkennung (OCR) verbessern soll. Das Projekt wurde gemeinsam von Forschungsteams von StepFun, Megvii Technology, der Universität der Chinesischen Akademie der Wissenschaften und der Tsinghua-Universität veröffentlicht. Die zugehörigen Publikationen sind im Folgenden aufgeführt. Allgemeine OCR-Theorie: Auf dem Weg zu OCR-2.0 über ein einheitliches End-to-End-ModellEs eignet sich für verschiedene Anwendungsszenarien wie Szenentexterkennung und Dokumentenerkennung. Dank seiner integrierten Architektur kann es die Vielfalt und Komplexität von Texten effizient verarbeiten. GOT-OCR 2.0 unterstützt nicht nur Szenentexterkennung, sondern kann auch mehrseitige Dokumente verarbeiten und bietet so mehr Flexibilität im Bereich der Texterkennung.

GOT-OCR-2.0 Zu den Features gehören:

Starke Vielseitigkeit: Basierend auf der allgemeinen OCR-Theorie kann es Szenentext und komplexe Dokumentstrukturen wie Tabellen und Formeln verarbeiten.

End-to-End-Modell: Die einheitliche End-to-End-Architektur vereinfacht den gesamten OCR-Prozess und integriert die Bildeingabe in die Textausgabe.

Effiziente Leistung: Die integrierte Flash-Attention-Technologie verbessert die Erkennungsgeschwindigkeit und Leistung.

Plattformübergreifende Unterstützung: unterstützt CUDA-Beschleunigung und ist in die GOT-OCR2.0-Plattform integriert, um vortrainierte Modelle zu laden.

Weit verbreitet: Geeignet für vielfältige Anwendungsszenarien wie mehrseitige Dokumente und Szenentexte.

Schritte ausführen

1. Klicken Sie oben rechts im Projekt auf „Klonen“ und dann zum Abschluss auf „Weiter“: Grundlegende Informationen > Rechenleistung auswählen > Überprüfen. Klicken Sie abschließend auf „Weiter“, um dieses Projekt im persönlichen Container zu öffnen.

2. Nachdem die Ressourcenzuweisung abgeschlossen ist, initialisiert der Hintergrund automatisch das Modell (). Anschließend können Sie die von der Plattform bereitgestellte API-Adresse direkt verwenden, um auf die Betriebsseite zuzugreifen (die Echtnamenauthentifizierung muss abgeschlossen sein, und für diesen Schritt muss der Arbeitsbereich nicht geöffnet werden).

3. Zielbild hochladen

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor einem Jahr

Größe

743.26 MB

Projektvorstellung

GOT-OCR-2.0 Zu den Features gehören:

Starke Vielseitigkeit: Basierend auf der allgemeinen OCR-Theorie kann es Szenentext und komplexe Dokumentstrukturen wie Tabellen und Formeln verarbeiten.
End-to-End-Modell: Die einheitliche End-to-End-Architektur vereinfacht den gesamten OCR-Prozess und integriert die Bildeingabe in die Textausgabe.
Effiziente Leistung: Die integrierte Flash-Attention-Technologie verbessert die Erkennungsgeschwindigkeit und Leistung.
Plattformübergreifende Unterstützung: unterstützt CUDA-Beschleunigung und ist in die GOT-OCR2.0-Plattform integriert, um vortrainierte Modelle zu laden.
Weit verbreitet: Geeignet für vielfältige Anwendungsszenarien wie mehrseitige Dokumente und Szenentexte.

Effektbeispiele

Schritte ausführen

1. Klicken Sie oben rechts im Projekt auf „Klonen“ und dann zum Abschluss auf „Weiter“: Grundlegende Informationen > Rechenleistung auswählen > Überprüfen. Klicken Sie abschließend auf „Weiter“, um dieses Projekt im persönlichen Container zu öffnen.

2. Nachdem die Ressourcenzuweisung abgeschlossen ist, initialisiert der Hintergrund automatisch das Modell (). Anschließend können Sie die von der Plattform bereitgestellte API-Adresse direkt verwenden, um auf die Betriebsseite zuzugreifen (die Echtnamenauthentifizierung muss abgeschlossen sein, und für diesen Schritt muss der Arbeitsbereich nicht geöffnet werden).

3. Zielbild hochladen

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Notebooks

Chandra: Hochpräzise Dokumenten-OCR

vor 2 Monaten

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

vor 2 Monaten

LightOnOCR-1B-Interface: Eine Hochgeschwindigkeits-OCR-Engine Für Komplexe Dokumente

vor 2 Monaten

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor einem Jahr

Größe

743.26 MB

Projektvorstellung

GOT-OCR-2.0 Zu den Features gehören:

Starke Vielseitigkeit: Basierend auf der allgemeinen OCR-Theorie kann es Szenentext und komplexe Dokumentstrukturen wie Tabellen und Formeln verarbeiten.
End-to-End-Modell: Die einheitliche End-to-End-Architektur vereinfacht den gesamten OCR-Prozess und integriert die Bildeingabe in die Textausgabe.
Effiziente Leistung: Die integrierte Flash-Attention-Technologie verbessert die Erkennungsgeschwindigkeit und Leistung.
Plattformübergreifende Unterstützung: unterstützt CUDA-Beschleunigung und ist in die GOT-OCR2.0-Plattform integriert, um vortrainierte Modelle zu laden.
Weit verbreitet: Geeignet für vielfältige Anwendungsszenarien wie mehrseitige Dokumente und Szenentexte.

Effektbeispiele