HyperAI
il y a 16 jours

De l’idéal au réel : Prédiction dense unifiée et efficace en données pour des scénarios du monde réel

Changliang Xia; Chengyou Jia; Zhuohang Dang; Minnan Luo
De l’idéal au réel : Prédiction dense unifiée et efficace en données pour des scénarios du monde réel
Résumé

Les tâches de prédiction dense jouent un rôle important en vision par ordinateur, visant à apprendre des étiquettes annotées pixel par pixel pour une image d'entrée. Malgré les progrès réalisés dans ce domaine, les méthodes existantes se concentrent principalement sur des conditions idéalisées, avec une généralisation limitée aux scénarios du monde réel et faisant face à la rareté difficile des données du monde réel. Pour étudier systématiquement ce problème, nous introduisons d'abord DenseWorld, un benchmark couvrant un large ensemble de 25 tâches de prédiction dense qui correspondent à des applications urgentes du monde réel, caractérisé par une évaluation unifiée entre les tâches. Ensuite, nous proposons DenseDiT, qui exploite au maximum les a priori visuels des modèles génératifs pour effectuer diverses tâches de prédiction dense du monde réel grâce à une stratégie unifiée. DenseDiT combine un mécanisme de réutilisation des paramètres et deux branches légères qui intègrent de manière adaptative le contexte multi-échelle, fonctionnant avec moins de 0,1 % de paramètres supplémentaires. Les évaluations sur DenseWorld révèlent des baisses significatives de performance pour les baselines générales et spécialisées existantes, soulignant leur généralisation limitée dans le monde réel. En revanche, DenseDiT obtient des résultats supérieurs en utilisant moins de 0,01 % des données d'entraînement des baselines, mettant en lumière sa valeur pratique pour le déploiement dans le monde réel. Nos données ainsi que nos points de contrôle (checkpoints) et codes sont disponibles à l'adresse suivante : https://xcltql666.github.io/DenseDiTProj