HyperAI
vor 16 Tagen

Von Ideal zu Real: Einheitliche und daten-effiziente dichte Vorhersage für realweltliche Szenarien

Changliang Xia; Chengyou Jia; Zhuohang Dang; Minnan Luo
Von Ideal zu Real: Einheitliche und daten-effiziente dichte Vorhersage für realweltliche Szenarien
Abstract

Dichte Vorhersageaufgaben haben in der Computer Vision eine bedeutende Bedeutung und zielen darauf ab, für ein Eingabebild pixelgenaue annotierte Labels zu lernen. Trotz der Fortschritte in diesem Bereich konzentrieren sich die bestehenden Methoden hauptsächlich auf ideale Bedingungen, wobei ihre Generalisierungsfähigkeit auf reale Szenarien begrenzt ist und sie mit der Herausforderung der Knappheit von realweltlichen Daten konfrontiert werden. Um dieses Problem systematisch zu untersuchen, stellen wir zunächst DenseWorld vor, einen Benchmark, der eine breite Palette von 25 dichten Vorhersageaufgaben umfasst, die dringenden Anwendungen in der Realwelt entsprechen, und der eine einheitliche Bewertung über alle Aufgaben hinweg ermöglicht. Anschließend schlagen wir DenseDiT vor, das die visuellen A-priori-Informationen von Generativen Modellen maximal ausnutzt, um durch eine einheitliche Strategie vielfältige reale dichte Vorhersageaufgaben zu lösen. DenseDiT kombiniert einen Mechanismus zur Wiederverwendung von Parametern mit zwei leichten Zweigen, die adaptiv mehrskaligen Kontext integrieren und weniger als 0,1 % zusätzlicher Parameter verwendet. Die Evaluationen auf DenseWorld zeigen erhebliche Leistungsverluste bei den bestehenden allgemeinen und spezialisierten Baselines und unterstreichen deren begrenzte Generalisierungsfähigkeit in der Realwelt. Im Gegensatz dazu erreicht DenseDiT überlegene Ergebnisse mit weniger als 0,01 % des Trainingsdatums der Baselines, was seinen praktischen Nutzen für die reale Anwendung hervorhebt. Unsere Daten sowie Checkpoints und Codes sind unter https://xcltql666.github.io/DenseDiTProj verfügbar.