HyperAIHyperAI

Command Palette

Search for a command to run...

vor 22 Tagen

Mit der Kamera denken: Ein vereinheitlichtes multimodales Modell für kamerazentriertes Verständnis und Generierung

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

Mit der Kamera denken: Ein vereinheitlichtes multimodales Modell für kamerazentriertes Verständnis und Generierung

Abstract

Kamerazentrierte Wahrnehmung und Generierung sind zwei zentrale Säulen der räumlichen Intelligenz, werden jedoch typischerweise getrennt untersucht. Wir präsentieren Puffin, ein integriertes, kamerazentriertes multimodales Modell, das das räumliche Bewusstsein entlang der Kameradimension erweitert. Puffin kombiniert Sprachregression und diffusionsbasierte Generierung, um Szenen aus beliebigen Blickwinkeln zu interpretieren und zu erstellen. Um die Modaldistanz zwischen Kameras und visuell-sprachlichen Daten zu überbrücken, führen wir ein neuartiges Paradigma ein, das die Kamera als Sprache behandelt und somit „Denken mit der Kamera“ ermöglicht. Dies leitet das Modell an, räumlich verankerte visuelle Hinweise mit fotografischen Begriffen zu verbinden, während es gleichzeitig im geometrischen Kontext reasoniert. Puffin wird auf Puffin-4M trainiert, einem großskaligen Datensatz aus 4 Millionen Tripletts aus Vision, Sprache und Kamera. Wir integrieren sowohl globale Kameraparameter als auch pixelgenaue Kamerakarten, was flexible und zuverlässige räumliche Generierung ermöglicht. Experimente zeigen, dass Puffin gegenüber spezialisierten Modellen für kamerazentrierte Generierung und Wahrnehmung eine überlegene Leistung erzielt. Durch Instruction-Tuning generalisiert Puffin auf vielfältige Cross-View-Aufgaben wie räumliche Vorstellungskraft, Weltexploration und Fotografieführung. Wir werden den Code, die Modelle, die Datensatzpipeline sowie die Benchmark öffentlich zugänglich machen, um die Forschung im Bereich multimodaler räumlicher Intelligenz voranzutreiben.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mit der Kamera denken: Ein vereinheitlichtes multimodales Modell für kamerazentriertes Verständnis und Generierung | Forschungsarbeiten | HyperAI