HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

SmolDocling: Ein ultrakompaktes Vision-Language-Modell für die end-to-end-Mehrmodalen-Dokumentenkonvertierung

SmolDocling: Ein ultrakompaktes Vision-Language-Modell für die end-to-end-Mehrmodalen-Dokumentenkonvertierung

Abstract

Wir stellen SmolDocling vor, ein ultrakompaktes Vision-Language-Modell, das auf die end-to-end-Dokumentkonvertierung abzielt. Unser Modell verarbeitet ganze Seiten umfassend, indem es DocTags erzeugt – ein neuartiges, universelles Markupsystem, das alle Seitenelemente in ihrem vollen Kontext mit Positionsangaben erfasst. Im Gegensatz zu bestehenden Ansätzen, die auf großen Grundmodellen oder Ensemble-Lösungen basieren, die wiederum auf handgefertigten Pipelines mehrerer spezialisierter Modelle beruhen, bietet SmolDocling eine end-to-end-Konvertierung, die Inhalt, Struktur und räumliche Lage von Dokumentelementen präzise erfasst – alles in einem Modell mit nur 256 M Parameter. SmolDocling zeigt robuste Leistung bei der korrekten Wiedergabe von Dokumentmerkmalen wie Code-Ausgaben, Tabellen, Gleichungen, Diagramme, Listen und weiteren Elementen über eine breite Vielfalt an Dokumenttypen hinweg, darunter Geschäftsunterlagen, wissenschaftliche Artikel, technische Berichte, Patente und Formulare – wodurch der Fokus deutlich über die üblicherweise betrachteten wissenschaftlichen Arbeiten hinausgeht. Zusätzlich liefern wir neuartige, öffentlich verfügbare Datensätze für die Erkennung von Diagrammen, Tabellen, Gleichungen und Code. Experimentelle Ergebnisse zeigen, dass SmolDocling Modellen mit bis zu 27-mal mehr Parametern konkurrieren kann, dabei jedoch die Rechenanforderungen erheblich reduziert. Das Modell ist derzeit verfügbar; die Datensätze werden in Kürze öffentlich zugänglich sein.

Code-Repositories

docling-project/docling
In GitHub erwähnt
DS4SD/docling
pytorch
In GitHub erwähnt

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SmolDocling: Ein ultrakompaktes Vision-Language-Modell für die end-to-end-Mehrmodalen-Dokumentenkonvertierung | Forschungsarbeiten | HyperAI