Command Palette
Search for a command to run...
FineVision: Offene Daten sind alles, was Sie brauchen
Luis Wiedmann Orr Zohar Amir Mahla Xiaohan Wang Rui Li Thibaud Frere Leandro von Werra Aritra Roy Gosthipaty Andrés Marafioti

Abstract
Die Entwicklung von Vision-Sprache-Modellen (VLMs) wird durch eine fragmentierte Landschaft unzusammenhängender und kontaminierter öffentlicher Datensätze behindert. Wir stellen FineVision vor, eine sorgfältig gesammelte, konsultierte und vereinheitlichte Korpus mit 24 Millionen Proben – der größte offene Datensatz dieser Art. Wir integrieren über 200 Quellen zu 185 Teilmengen über eine halbautomatisierte, menschlich gesteuerte Pipeline: Während die Automatisierung die Masseninjektion und die Schema-Zuordnung übernimmt, überprüfen Rezensenten die Zuordnungen und führen Stichproben der Ausgaben durch, um die korrekte Verarbeitung der Annotationen, die angemessene Formatierung, die Vielfalt und die Sicherheit zu bestätigen; bei erkannten Problemen werden gezielte Korrekturen vorgenommen und die Prozesse erneut ausgeführt. Der Workflow wendet zudem strenges Duplikat-Entfernen innerhalb und zwischen den Quellen sowie eine Dekontamination gegenüber 66 öffentlichen Benchmarks an. FineVision umfasst zudem agente- und GUI-basierte Aufgaben mit einem einheitlichen Aktionsspace; Rezensenten validieren die Schemata und untersuchen eine Stichprobe der Ablaufverläufe, um die Ausführbarkeit und Genauigkeit zu bestätigen. Modelle, die auf FineVision trainiert wurden, überzeugen in einer breiten Bewertungssuite konsistent über jene, die auf bestehenden offenen Datensatzmischungen trainiert wurden, was die Vorteile von Skalierung, Datenqualität und eines ausgewogenen Verhältnisses aus Automatisierung und menschlicher Aufsicht unterstreicht. Wir veröffentlichen das Korpus sowie die Kurationstools, um die datenbasierte Forschung an VLMs zu beschleunigen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.