HyperAIHyperAI
il y a 2 mois

T2Net : Traduction Synthétique vers Réaliste pour la Résolution de Tâches d'Estimation de Profondeur à Partir d'une Image Unique

Chuanxia Zheng; Tat-Jen Cham; Jianfei Cai
T2Net : Traduction Synthétique vers Réaliste pour la Résolution de Tâches d'Estimation de Profondeur à Partir d'une Image Unique
Résumé

Les méthodes actuelles d'estimation de profondeur à partir d'une seule image utilisent des ensembles de données d'entraînement composés de paires d'images-réelles et de profondeurs ou de paires stéréoscopiques, qui ne sont pas faciles à obtenir. Nous proposons un cadre d'entraînement basé sur des paires d'images-synthétiques et de profondeurs ainsi que sur des images réelles non appariées. Ce cadre comprend un réseau de traduction d'image pour améliorer la réalisme des images d'entrée, suivi par un réseau de prédiction de profondeur. Une idée clé est que le premier réseau agisse comme un traducteur d'entrée à large spectre, capable de traiter soit des images synthétiques, soit des images réelles, et produise idéalement des images réalistes avec une modification minimale. Cela est réalisé grâce à une perte de reconstruction lorsque l'entrée d'entraînement est réelle, et une perte GAN (Generative Adversarial Network) lorsque l'entrée est synthétique, éliminant ainsi la nécessité d'une auto-régularisation heuristique. Le deuxième réseau est entraîné sur une perte de tâche pour les paires d'images-synthétiques et de profondeurs, avec une perte GAN supplémentaire pour unifier les distributions de caractéristiques réelles et synthétiques. Il est important de noter que ce cadre peut être entraîné dans son ensemble (end-to-end), conduisant à des résultats satisfaisants, voire surpassant les premières méthodes basées sur l'apprentissage profond qui utilisent des données appariées réelles.

T2Net : Traduction Synthétique vers Réaliste pour la Résolution de Tâches d'Estimation de Profondeur à Partir d'une Image Unique | Articles de recherche récents | HyperAI