vor 5 Monaten

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

Zusammenfassung

Wir stellen SmolDocling vor, ein ultrakompaktes Vision-Language-Modell, das auf die end-to-end-Dokumentkonvertierung abzielt. Unser Modell verarbeitet ganze Seiten umfassend, indem es DocTags erzeugt – ein neuartiges, universelles Markupsystem, das alle Seitenelemente in ihrem vollen Kontext mit Positionsangaben erfasst. Im Gegensatz zu bestehenden Ansätzen, die auf großen Grundmodellen oder Ensemble-Lösungen basieren, die wiederum auf handgefertigten Pipelines mehrerer spezialisierter Modelle beruhen, bietet SmolDocling eine end-to-end-Konvertierung, die Inhalt, Struktur und räumliche Lage von Dokumentelementen präzise erfasst – alles in einem Modell mit nur 256 M Parameter. SmolDocling zeigt robuste Leistung bei der korrekten Wiedergabe von Dokumentmerkmalen wie Code-Ausgaben, Tabellen, Gleichungen, Diagramme, Listen und weiteren Elementen über eine breite Vielfalt an Dokumenttypen hinweg, darunter Geschäftsunterlagen, wissenschaftliche Artikel, technische Berichte, Patente und Formulare – wodurch der Fokus deutlich über die üblicherweise betrachteten wissenschaftlichen Arbeiten hinausgeht. Zusätzlich liefern wir neuartige, öffentlich verfügbare Datensätze für die Erkennung von Diagrammen, Tabellen, Gleichungen und Code. Experimentelle Ergebnisse zeigen, dass SmolDocling Modellen mit bis zu 27-mal mehr Parametern konkurrieren kann, dabei jedoch die Rechenanforderungen erheblich reduziert. Das Modell ist derzeit verfügbar; die Datensätze werden in Kürze öffentlich zugänglich sein.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SmolDocling: Ein ultrakompaktes Vision-Language-Modell für die end-to-end-Mehrmodalen-Dokumentenkonvertierung

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SmolDocling: Ein ultrakompaktes Vision-Language-Modell für die end-to-end-Mehrmodalen-Dokumentenkonvertierung

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SmolDocling: Ein ultrakompaktes Vision-Language-Modell für die end-to-end-Mehrmodalen-Dokumentenkonvertierung

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz

Ahmed Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos Christoph Auer Lucas Morin Rafael Teixeira de Lima Yusik Kim A. Said Gurbuz