HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

SheetDesigner: MLLM-gestützte Tabellenlayoutgenerierung mit regelbasiertem und visionsbasiertem Reflektieren

Qin Chen Yuanyi Ren Xiaojun Ma Mugeng Liu Han Shi Dongmei Zhang

SheetDesigner: MLLM-gestützte Tabellenlayoutgenerierung mit regelbasiertem und visionsbasiertem Reflektieren

Abstract

Tabellenkalkulationsprogramme sind für datenorientierte Aufgaben von entscheidender Bedeutung, da sie reichhaltige, strukturierte Layouts bieten, die eine effiziente Informationsübertragung ermöglichen. Angesichts der erheblichen Zeitaufwendungen und fachlichen Expertise, die für die manuelle Gestaltung von Tabellenlayouts erforderlich sind, besteht ein dringender Bedarf an automatisierten Lösungen. Bestehende Ansätze zur automatischen Layoutgenerierung eignen sich jedoch schlecht für Tabellenkalkulationen, da sie oft (1) Komponenten als achsenparallele Rechtecke mit kontinuierlichen Koordinaten behandeln und damit die inhärent diskrete, gitterbasierte Struktur von Tabellen übersehen; und (2) semantische Zusammenhänge zwischen Elementen, wie Datenabhängigkeiten und kontextuelle Verbindungen, die für Tabellen charakteristisch sind, vernachlässigen. In diesem Artikel formalisieren wir zunächst die Aufgabe der Tabellenlayoutgenerierung und unterstützen sie durch ein sieben-Kriterien-Beurteilungsprotokoll sowie eine Datensammlung aus 3.326 Tabellen. Anschließend stellen wir SheetDesigner vor, einen zero-shot- und trainingsfreien Rahmen, der Multimodale Große Sprachmodelle (MLLMs) nutzt, um Komponentenplatzierung und Inhaltsfüllung durch Kombination von Regelbasiertem und visuellem Reflektionsansatz zu realisieren. SheetDesigner übertrifft fünf Baseline-Modelle um mindestens 22,6 %. Darüber hinaus stellen wir fest, dass MLLMs durch die visuelle Modalität Überlappungen und Gleichgewicht gut bewältigen, jedoch mit der Ausrichtung Schwierigkeiten haben, was eine hybride Strategie aus regelbasiertem und visuellem Reflektionsansatz erfordert. Unsere Quellcode- und Datensammlung steht auf GitHub zur Verfügung.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SheetDesigner: MLLM-gestützte Tabellenlayoutgenerierung mit regelbasiertem und visionsbasiertem Reflektieren | Forschungsarbeiten | HyperAI