HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole

DetectiumFire – Multimodaler Datensatz Zur Branderkennung

Datum

vor 4 Tagen

Organisation

Aalto-Universität
Tulane Universität

Veröffentlichungs-URL

www.kaggle.com

Paper-URL

2511.02495

Lizenz

Nicht-kommerziell

DetectiumFire ist ein Datensatz, der 2025 von der Tulane University in Zusammenarbeit mit der Aalto University veröffentlicht wurde und für Aufgaben wie Flammenerkennung, visuelles Schließen und multimodale Generierung entwickelt wurde. Die zugehörige Forschungsarbeit trägt den Titel „…“.DetectiumFire: Ein umfassender multimodaler Datensatz zur Verknüpfung von Bildverarbeitung und Sprache für das Verständnis von BrändenDer Track „Flame Scene“ wurde in den NeurIPS 2025 Datasets and Benchmarks Track aufgenommen, mit dem Ziel, eine einheitliche Trainings- und Evaluierungsressource für Computer Vision und Bild-Sprach-Modelle bereitzustellen.

Dieser Datensatz umfasst über 145.000 hochwertige Bilder und 25.000 Videos von Bränden aus der realen Welt. Zusätzlich zu den realen Daten enthält er 8.000 synthetische Brandbilder, die mithilfe eines Diffusionsmodells generiert wurden, sowie 12.000 sorgfältig ausgewählte Präferenzpaare aus dem RLHF-Prozess zur Verbesserung der Modellanpassung. Er beinhaltet sowohl reale als auch synthetische Bilder und Videos mit und ohne Flammen, ergänzt durch Informationen zur Flammenintensität, Umgebungsdaten, Textbeschreibungen und menschliche Präferenzangaben. Der Datensatz besteht aus vier Teilen: realen Bildern, realen Videos, synthetischen Flammenbildern (generiert mithilfe des Diffusionsmodells) und menschlichen Präferenzdaten basierend auf paarweisen Vergleichen. Die synthetischen Bilder liefern Erkennungsannotationen im YOLO-Format, während die Präferenzdaten die menschlichen Beurteilungen der Generierungsqualität dokumentieren.

Zusammensetzung des Datensatzes:

  • Reale Bilder
    • Feuer: Realistische Flammenbilder und Anmerkungen im YOLO-Format
    • non_fire: Schwierige Negationen, die keine Flammen enthalten, aber leicht verwechselt werden können (wie helles Licht, Rauch, Sonnenuntergang).
  • Echtes Video (real_video)
    • Feuer: Echtes Videomaterial mit sichtbaren Flammen
    • non_fire: Szenen ohne Feuer, die für Robustheitstests verwendet werden.
  • Synthetische Bilder
    • stable_diff_v15/train: Bildgenerierung mittels SFT-Feinabstimmung + YOLO-Annotation
    • dpo_stable_diff_v15/train: DPO-Feinabstimmung generierter Bilder + YOLO-Annotationen
  • Präferenzdaten (preference_dataset)
    • preference.json: Vergleich und Interpretation der menschlichen Präferenzen für gepaarte generierte Bilder, die für das RLHF/DPO-Training verwendet werden.
Dataset-Beispiel

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp