HyperAI

GOT-OCR-2.0 Das Weltweit Erste Universelle End-to-End-OCR-Modell

Projektvorstellung

GOT-OCR-2.0  Es handelt sich um ein einheitliches End-to-End-Modell, das auf der allgemeinen OCR-Theorie basiert und sich auf die Verbesserung der Genauigkeit und Effizienz der optischen Zeichenerkennung (OCR) konzentriert. Das Projekt wurde gemeinsam von den Forschungsteams von StepFun, Megvii Technology, der Universität der Chinesischen Akademie der Wissenschaften und der Tsinghua-Universität veröffentlicht. Die entsprechenden Ergebnisse der Studie sind „Allgemeine OCR-Theorie: Auf dem Weg zu OCR-2.0 über ein einheitliches End-to-End-Modell", das für verschiedene Anwendungsszenarien wie Szenentext- und Dokumenterkennung geeignet ist. Es verfügt über eine integrierte Architektur, die die Vielfalt und Komplexität von Text effizient bewältigen kann. GOT-OCR 2.0 unterstützt nicht nur die Szenentexterkennung, sondern kann auch mehrseitige Dokumente verarbeiten und so mehr Flexibilität in den OCR-Bereich bringen.

GOT-OCR-2.0  Zu den Features gehören:

  • Starke Vielseitigkeit: Basierend auf der allgemeinen OCR-Theorie kann es Szenentext und komplexe Dokumentstrukturen wie Tabellen und Formeln verarbeiten.
  • End-to-End-Modell: Die einheitliche End-to-End-Architektur vereinfacht den gesamten OCR-Prozess und integriert die Bildeingabe in die Textausgabe.
  • Effiziente Leistung: Die integrierte Flash-Attention-Technologie verbessert die Erkennungsgeschwindigkeit und Leistung.
  • Plattformübergreifende Unterstützung: unterstützt CUDA-Beschleunigung und ist in die GOT-OCR2.0-Plattform integriert, um vortrainierte Modelle zu laden.
  • Weit verbreitet: Geeignet für vielfältige Anwendungsszenarien wie mehrseitige Dokumente und Szenentexte.

Effektbeispiele


Schritte ausführen

1. Klicken Sie oben rechts im Projekt auf „Klonen“ und dann zum Abschluss auf „Weiter“: Grundlegende Informationen > Rechenleistung auswählen > Überprüfen. Klicken Sie abschließend auf „Weiter“, um dieses Projekt im persönlichen Container zu öffnen.

2. Nachdem die Ressourcenzuweisung abgeschlossen ist, initialisiert der Hintergrund automatisch das Modell (). Anschließend können Sie die von der Plattform bereitgestellte API-Adresse direkt verwenden, um auf die Betriebsseite zuzugreifen (die Echtnamenauthentifizierung muss abgeschlossen sein, und für diesen Schritt muss der Arbeitsbereich nicht geöffnet werden).

3. Zielbild hochladen