HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Ensemble De Données Multimodales De Compréhension Des Incendies DetectiumFire

Date

il y a 4 jours

Organisation

Université Aalto
Université Tulane

URL de publication

www.kaggle.com

URL de l'article

2511.02495

Licence

Non-Commercial

DetectiumFire est un jeu de données publié en 2025 par l'Université de Tulane en collaboration avec l'Université Aalto, conçu pour des tâches telles que la détection de flammes, le raisonnement visuel et la génération multimodale. L'article de recherche associé s'intitule « ... ».DetectiumFire : un ensemble de données multimodales complet reliant la vision et le langage pour la compréhension des incendiesLe volet « Flame Scene » a été inclus dans le volet « Ensembles de données et benchmarks » de NeurIPS 2025, dans le but de fournir une ressource unifiée d’entraînement et d’évaluation pour les modèles de vision par ordinateur et de vision-langage.

Cet ensemble de données contient plus de 145 000 images réelles d'incendies de haute qualité et 25 000 vidéos liées aux incendies. Outre les données réelles, il comprend 8 000 images d'incendies synthétiques générées à l'aide d'un modèle de diffusion, et 12 000 paires de préférences soigneusement sélectionnées issues du processus RLHF afin d'améliorer l'alignement du modèle. Il couvre des images et des vidéos de flammes et d'absence de flammes, réelles et synthétiques, accompagnées d'informations sur l'intensité des flammes, l'environnement, des descriptions textuelles et des annotations de préférences humaines. L'ensemble de données se compose de quatre parties : images réelles, vidéos réelles, images de flammes synthétiques générées par le modèle de diffusion et données de préférences humaines basées sur des comparaisons par paires. Les images synthétiques fournissent des annotations de détection au format YOLO, tandis que les données de préférences enregistrent les jugements humains concernant la qualité de la génération.

Composition de l'ensemble de données :

  • Images réelles
    • Feu : Images de flammes réalistes et annotations au format YOLO
    • non_fire : Négations difficiles qui ne contiennent pas de flammes mais qui sont facilement confondues (comme la lumière vive, la fumée, le coucher du soleil).
  • Vidéo réelle (real_video)
    • Incendie : Images vidéo réelles montrant des flammes visibles
    • non_fire : Scènes sans feu, utilisées pour les tests de robustesse.
  • Images de synthèse
    • stable_diff_v15/train : Génération d'images par ajustement fin SFT et annotation YOLO
    • dpo_stable_diff_v15/train : Ajustement fin des images générées par DPO + annotations YOLO
  • Données de préférence (preference_dataset)
    • preference.json : Comparaison et interprétation des préférences humaines pour des images générées par paires, utilisées pour l’entraînement RLHF/DPO.
Exemple d'ensemble de données

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp