Datum

vor 8 Monaten

Organisation

Paper-URL

2510.15742

Lizenz

Non-Commercial

Tags

Natürliche Sprachverarbeitung

Videoerzeugung

Videobearbeitung

Ditto-1M ist ein befehlsgesteuerter Videobearbeitungsdatensatz, der 2025 von der Hong Kong University of Science and Technology, der Ant Group, der Zhejiang University und anderen Institutionen veröffentlicht wurde. Die zugehörigen Papierergebnisse sind „Skalierung der anweisungsbasierten Videobearbeitung mit einem hochwertigen synthetischen Datensatz“, dessen Ziel es ist, die Entwicklung von Videobearbeitungsmodellen auf der Grundlage natürlicher Sprachanweisungen zu fördern und das Verständnis des Modells für komplexe Anweisungen sowie die Genauigkeit der Videogenerierung durch groß angelegte, hochwertige synthetische Beispiele zu verbessern. Dieser Datensatz enthält etwa 1.000.000 hochpräzise Videobearbeitungs-Triples, die jeweils aus einem Quellvideo, einer Bearbeitungsanweisung und dem bearbeiteten Video bestehen. Jedes Video hat durchschnittlich 101 Bilder und eine Auflösung von 1.280 × 720. Die Bearbeitungsaufgaben sind in drei Kategorien unterteilt:

Globale Stilübertragung: einschließlich künstlerischer Stiländerungen, Farbkorrektur, visueller Effekte usw.
Globale Freiformbearbeitung: einschließlich komplexer Szenenänderungen, Umgebungsänderungen, kreativer Transformationen usw.
Lokale Bearbeitung: umfasst präzise Objektänderungen, Attributänderungen, lokale Anpassungen usw.
Dataset-Beispiel

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

Datum

vor 8 Monaten

Organisation

Paper-URL

2510.15742

Lizenz

Non-Commercial

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Ditto-1M-Datensatz Für Anweisungsgesteuerte Videobearbeitung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ditto-1M-Datensatz Für Anweisungsgesteuerte Videobearbeitung

Zugehörige Datensätze

Nemotron Personas Frankreich (Französischer Datensatz Synthetischer Personas)

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

RubricHub_v1 Multi-Domain Generative Task Dataset

Nemotron-Personas-Brazil Brasilianischer Datensatz Für Synthetische Charaktere

RoVid-X-Roboter-Videogenerierungsdatensatz

TransPhy3D Transparent Reflection Synthesis Video Dataset

Global Green Energy Pulse-Datensatz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

Datensatz Zur Röntgen-Schmuggelware-Erkennung

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ditto-1M-Datensatz Für Anweisungsgesteuerte Videobearbeitung

Zugehörige Datensätze

Nemotron Personas Frankreich (Französischer Datensatz Synthetischer Personas)

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

RubricHub_v1 Multi-Domain Generative Task Dataset

Nemotron-Personas-Brazil Brasilianischer Datensatz Für Synthetische Charaktere

RoVid-X-Roboter-Videogenerierungsdatensatz

TransPhy3D Transparent Reflection Synthesis Video Dataset

Global Green Energy Pulse-Datensatz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

Datensatz Zur Röntgen-Schmuggelware-Erkennung

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

Nemotron Personas Frankreich (Französischer Datensatz Synthetischer Personas)

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

RubricHub_v1 Multi-Domain Generative Task Dataset

Nemotron-Personas-Brazil Brasilianischer Datensatz Für Synthetische Charaktere

RoVid-X-Roboter-Videogenerierungsdatensatz

TransPhy3D Transparent Reflection Synthesis Video Dataset

Global Green Energy Pulse-Datensatz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

Datensatz Zur Röntgen-Schmuggelware-Erkennung

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Zugehörige Datensätze

Nemotron Personas Frankreich (Französischer Datensatz Synthetischer Personas)

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

RubricHub_v1 Multi-Domain Generative Task Dataset

Nemotron-Personas-Brazil Brasilianischer Datensatz Für Synthetische Charaktere

RoVid-X-Roboter-Videogenerierungsdatensatz

TransPhy3D Transparent Reflection Synthesis Video Dataset

Global Green Energy Pulse-Datensatz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

Datensatz Zur Röntgen-Schmuggelware-Erkennung

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

LongBench-Pro Long Context Comprehensive Evaluation Dataset