Command Palette
Search for a command to run...
GOT-OCR-2.0 Das Weltweit Erste Universelle End-to-End-OCR-Modell

Projektvorstellung
GOT-OCR-2.0 Dies ist ein einheitliches End-to-End-Modell, das auf der allgemeinen OCR-Theorie basiert und die Genauigkeit und Effizienz der optischen Zeichenerkennung (OCR) verbessern soll. Das Projekt wurde gemeinsam von Forschungsteams von StepFun, Megvii Technology, der Universität der Chinesischen Akademie der Wissenschaften und der Tsinghua-Universität veröffentlicht. Die zugehörigen Publikationen sind im Folgenden aufgeführt. Allgemeine OCR-Theorie: Auf dem Weg zu OCR-2.0 über ein einheitliches End-to-End-ModellEs eignet sich für verschiedene Anwendungsszenarien wie Szenentexterkennung und Dokumentenerkennung. Dank seiner integrierten Architektur kann es die Vielfalt und Komplexität von Texten effizient verarbeiten. GOT-OCR 2.0 unterstützt nicht nur Szenentexterkennung, sondern kann auch mehrseitige Dokumente verarbeiten und bietet so mehr Flexibilität im Bereich der Texterkennung.
GOT-OCR-2.0 Zu den Features gehören:
- Starke Vielseitigkeit: Basierend auf der allgemeinen OCR-Theorie kann es Szenentext und komplexe Dokumentstrukturen wie Tabellen und Formeln verarbeiten.
- End-to-End-Modell: Die einheitliche End-to-End-Architektur vereinfacht den gesamten OCR-Prozess und integriert die Bildeingabe in die Textausgabe.
- Effiziente Leistung: Die integrierte Flash-Attention-Technologie verbessert die Erkennungsgeschwindigkeit und Leistung.
- Plattformübergreifende Unterstützung: unterstützt CUDA-Beschleunigung und ist in die GOT-OCR2.0-Plattform integriert, um vortrainierte Modelle zu laden.
- Weit verbreitet: Geeignet für vielfältige Anwendungsszenarien wie mehrseitige Dokumente und Szenentexte.
Effektbeispiele
![]() |
![]() |
Schritte ausführen
1. Klicken Sie oben rechts im Projekt auf „Klonen“ und dann zum Abschluss auf „Weiter“: Grundlegende Informationen > Rechenleistung auswählen > Überprüfen. Klicken Sie abschließend auf „Weiter“, um dieses Projekt im persönlichen Container zu öffnen.
2. Nachdem die Ressourcenzuweisung abgeschlossen ist, initialisiert der Hintergrund automatisch das Modell (). Anschließend können Sie die von der Plattform bereitgestellte API-Adresse direkt verwenden, um auf die Betriebsseite zuzugreifen (die Echtnamenauthentifizierung muss abgeschlossen sein, und für diesen Schritt muss der Arbeitsbereich nicht geöffnet werden).

3. Zielbild hochladen

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

