vor 4 Monaten

Zusammenfassung

Kamerazentrierte Wahrnehmung und Generierung sind zwei zentrale Säulen der räumlichen Intelligenz, werden jedoch typischerweise getrennt untersucht. Wir präsentieren Puffin, ein integriertes, kamerazentriertes multimodales Modell, das das räumliche Bewusstsein entlang der Kameradimension erweitert. Puffin kombiniert Sprachregression und diffusionsbasierte Generierung, um Szenen aus beliebigen Blickwinkeln zu interpretieren und zu erstellen. Um die Modaldistanz zwischen Kameras und visuell-sprachlichen Daten zu überbrücken, führen wir ein neuartiges Paradigma ein, das die Kamera als Sprache behandelt und somit „Denken mit der Kamera“ ermöglicht. Dies leitet das Modell an, räumlich verankerte visuelle Hinweise mit fotografischen Begriffen zu verbinden, während es gleichzeitig im geometrischen Kontext reasoniert. Puffin wird auf Puffin-4M trainiert, einem großskaligen Datensatz aus 4 Millionen Tripletts aus Vision, Sprache und Kamera. Wir integrieren sowohl globale Kameraparameter als auch pixelgenaue Kamerakarten, was flexible und zuverlässige räumliche Generierung ermöglicht. Experimente zeigen, dass Puffin gegenüber spezialisierten Modellen für kamerazentrierte Generierung und Wahrnehmung eine überlegene Leistung erzielt. Durch Instruction-Tuning generalisiert Puffin auf vielfältige Cross-View-Aufgaben wie räumliche Vorstellungskraft, Weltexploration und Fotografieführung. Wir werden den Code, die Modelle, die Datensatzpipeline sowie die Benchmark öffentlich zugänglich machen, um die Forschung im Bereich multimodaler räumlicher Intelligenz voranzutreiben.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Mit der Kamera denken: Ein vereinheitlichtes multimodales Modell für kamerazentriertes Verständnis und Generierung

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Mit der Kamera denken: Ein vereinheitlichtes multimodales Modell für kamerazentriertes Verständnis und Generierung

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Mit der Kamera denken: Ein vereinheitlichtes multimodales Modell für kamerazentriertes Verständnis und Generierung

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters