Command Palette
Search for a command to run...
Mit der Kamera denken: Ein vereinheitlichtes multimodales Modell für kamerazentriertes Verständnis und Generierung
Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

Abstract
Kamerazentrierte Wahrnehmung und Generierung sind zwei zentrale Säulen der räumlichen Intelligenz, werden jedoch typischerweise getrennt untersucht. Wir präsentieren Puffin, ein integriertes, kamerazentriertes multimodales Modell, das das räumliche Bewusstsein entlang der Kameradimension erweitert. Puffin kombiniert Sprachregression und diffusionsbasierte Generierung, um Szenen aus beliebigen Blickwinkeln zu interpretieren und zu erstellen. Um die Modaldistanz zwischen Kameras und visuell-sprachlichen Daten zu überbrücken, führen wir ein neuartiges Paradigma ein, das die Kamera als Sprache behandelt und somit „Denken mit der Kamera“ ermöglicht. Dies leitet das Modell an, räumlich verankerte visuelle Hinweise mit fotografischen Begriffen zu verbinden, während es gleichzeitig im geometrischen Kontext reasoniert. Puffin wird auf Puffin-4M trainiert, einem großskaligen Datensatz aus 4 Millionen Tripletts aus Vision, Sprache und Kamera. Wir integrieren sowohl globale Kameraparameter als auch pixelgenaue Kamerakarten, was flexible und zuverlässige räumliche Generierung ermöglicht. Experimente zeigen, dass Puffin gegenüber spezialisierten Modellen für kamerazentrierte Generierung und Wahrnehmung eine überlegene Leistung erzielt. Durch Instruction-Tuning generalisiert Puffin auf vielfältige Cross-View-Aufgaben wie räumliche Vorstellungskraft, Weltexploration und Fotografieführung. Wir werden den Code, die Modelle, die Datensatzpipeline sowie die Benchmark öffentlich zugänglich machen, um die Forschung im Bereich multimodaler räumlicher Intelligenz voranzutreiben.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.