Command Palette
Search for a command to run...
Granite-docling-258M: Ein Leichtes Multimodales Dokumentverarbeitungsmodell
1. Einführung in das Tutorial
Granite-Docling-258M ist ein leichtgewichtiges visuelles Sprachmodell, das im September 2025 von IBM eingeführt wurde und für die effiziente Dokumentenkonvertierung entwickelt wurde. Das Modell kann Dokumente in maschinenlesbare Formate konvertieren und dabei Elemente wie Layouts, Tabellen und Formeln vollständig erhalten. Das Modell enthält nur 258 Millionen Parameter, bietet eine hervorragende Leistung, ist kostengünstig und unterstützt die Verarbeitung mehrerer Sprachen (einschließlich Arabisch, Chinesisch und Japanisch). Das Modell verwendet das DocTags-Format, um die Dokumentstruktur präzise zu beschreiben und Informationsverluste zu vermeiden. Granite-Docling-258M lässt sich nahtlos in die Docling-Bibliothek integrieren, bietet leistungsstarke Anpassungs- und Fehlerbehandlungsfunktionen, eignet sich für die Dokumentenverarbeitung auf Unternehmensebene und ist ein leistungsstarkes Werkzeug im Bereich der Dokumentenverarbeitung. Die relevanten Ergebnisse sind:SmolDocling: Ein ultrakompaktes Vision-Language-Modell für die durchgängige multimodale Dokumentkonvertierung", der relevante Blog ist "IBM Granite-Docling: End-to-End-Dokumentenverständnis mit einem winzigen Modell".
Dieses Tutorial verwendet eine einzelne RTX 5090-Karte als Ressource.
2. Projektbeispiele

3. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Anwendungsschritte
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.