HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 22 jours

Penser avec l'appareil photo : un modèle multimodal unifié pour la compréhension et la génération centrées sur l'appareil photo

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

Penser avec l'appareil photo : un modèle multimodal unifié pour la compréhension et la génération centrées sur l'appareil photo

Résumé

La compréhension et la génération centrées sur la caméra constituent deux piliers fondamentaux de l’intelligence spatiale, mais elles sont généralement étudiées de manière isolée. Nous présentons Puffin, un modèle multimodal unifié centré sur la caméra, qui étend la conscience spatiale selon la dimension caméra. Puffin intègre la régression linguistique et la génération basée sur la diffusion pour interpréter et créer des scènes depuis des points de vue arbitraires. Pour combler l’écart entre les modalités caméra et vision-langage, nous introduisons un nouveau paradigme qui traite la caméra comme un langage, permettant ainsi de raisonner « avec » la caméra. Ce cadre guide le modèle à aligner les indices visuels ancrés dans l’espace avec la terminologie photographique tout en raisonnant dans un contexte géométrique. Puffin est entraîné sur Puffin-4M, un grand jeu de données comprenant 4 millions de triplets vision-langage-caméra. Nous intégrons à la fois les paramètres globaux de la caméra et des cartes pixel-par-pixel de la caméra, offrant ainsi une génération spatiale flexible et fiable. Les expériences montrent que Puffin surpasser les modèles spécialisés pour la génération et la compréhension centrées sur la caméra. Grâce à un ajustement par instruction, Puffin se généralise à diverses tâches inter-vues, telles que l’imagination spatiale, l’exploration du monde et l’orientation photographique. Nous mettrons à disposition le code, les modèles, le pipeline de traitement du jeu de données et le benchmark afin de stimuler la recherche en intelligence spatiale multimodale.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Penser avec l'appareil photo : un modèle multimodal unifié pour la compréhension et la génération centrées sur l'appareil photo | Articles de recherche | HyperAI