Command Palette
Search for a command to run...
SmolDocling: Ein ultrakompaktes Vision-Language-Modell für die end-to-end-Mehrmodalen-Dokumentenkonvertierung

Abstract
Wir stellen SmolDocling vor, ein ultrakompaktes Vision-Language-Modell, das auf die end-to-end-Dokumentkonvertierung abzielt. Unser Modell verarbeitet ganze Seiten umfassend, indem es DocTags erzeugt – ein neuartiges, universelles Markupsystem, das alle Seitenelemente in ihrem vollen Kontext mit Positionsangaben erfasst. Im Gegensatz zu bestehenden Ansätzen, die auf großen Grundmodellen oder Ensemble-Lösungen basieren, die wiederum auf handgefertigten Pipelines mehrerer spezialisierter Modelle beruhen, bietet SmolDocling eine end-to-end-Konvertierung, die Inhalt, Struktur und räumliche Lage von Dokumentelementen präzise erfasst – alles in einem Modell mit nur 256 M Parameter. SmolDocling zeigt robuste Leistung bei der korrekten Wiedergabe von Dokumentmerkmalen wie Code-Ausgaben, Tabellen, Gleichungen, Diagramme, Listen und weiteren Elementen über eine breite Vielfalt an Dokumenttypen hinweg, darunter Geschäftsunterlagen, wissenschaftliche Artikel, technische Berichte, Patente und Formulare – wodurch der Fokus deutlich über die üblicherweise betrachteten wissenschaftlichen Arbeiten hinausgeht. Zusätzlich liefern wir neuartige, öffentlich verfügbare Datensätze für die Erkennung von Diagrammen, Tabellen, Gleichungen und Code. Experimentelle Ergebnisse zeigen, dass SmolDocling Modellen mit bis zu 27-mal mehr Parametern konkurrieren kann, dabei jedoch die Rechenanforderungen erheblich reduziert. Das Modell ist derzeit verfügbar; die Datensätze werden in Kürze öffentlich zugänglich sein.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.