Online-Tutorial | Team Der Hong Kong University of Science and Technology Veröffentlicht Erste DVD Eines Deterministischen Video-Tiefen-Frameworks Als Open Source Und Erzielt Damit Modernste Ergebnisse Mit Zero-Shot-Technologie

Die Tiefenschätzung zählt zu den grundlegendsten und wichtigsten Aufgaben im Bereich der 3D-Bildverarbeitung. Von autonomem Fahren und Roboternavigation über AR/VR und digitale Zwillinge bis hin zur Videogenerierung müssen Systeme die räumlichen Beziehungen zwischen Objekten und der Kamera in einer Szene präzise erfassen. Die Tiefenschätzung in Videos steht jedoch seit Langem vor einem unauflöslichen Widerspruch: Generative Methoden, wie beispielsweise Diffusionsmodelle, verfügen zwar über ein starkes semantisches Verständnis und können mithilfe großer Mengen vortrainierter Daten komplexe Szenenstrukturen ableiten, ihre Vorhersageergebnisse werden jedoch häufig durch zufällige Stichprobenverfahren beeinflusst, wodurch sie anfällig für geometrische Illusionen, Skalierungsdrift und zeitliche Instabilität sind. Traditionelle diskriminative Methoden hingegen, obwohl sie eine höhere Deterministik aufweisen, sind stark von umfangreichen annotierten Daten abhängig, was zu hohen Trainingskosten und einer begrenzten Generalisierungsfähigkeit in komplexen Szenen führt.

Um diesem Problem der Branche zu begegnen, schlug das Team der Hong Kong University of Science and Technology (Guangzhou) DVD (Deterministic Video Depth Estimation) vor.Zum ersten Mal wurde ein vortrainiertes Videodiffusionsmodell deterministisch in einen einzigen Vorwärtspropagations-Videotiefenschätzer transformiert.Im Gegensatz zu herkömmlichen Diffusionsmodellen, die mehrere Iterationen zur Ergebnisgenerierung benötigen, kann DVD die Tiefenvorhersage mit einer einzigen Vorwärtsberechnung durchführen. Dies verbessert nicht nur die Effizienz der Inferenz erheblich, sondern beseitigt auch vollständig das durch zufälliges Abtasten verursachte Problem geometrischer Illusionen und gewährleistet so die zeitliche Konsistenz und strukturelle Stabilität von Videosequenzen.

Und was noch wichtiger ist:DVD hat erfolgreich eine große Menge an geometrischem und semantischem Vorwissen bewahrt, das im grundlegenden Videomodell enthalten war.Durch innovative strukturelle Verankerungsmechanismen und die Latent Manifold Correction (LMR)-Technologie kann das Modell Objektkanten, hochfrequente Texturen und Bewegungsdetails präzise wiederherstellen und gleichzeitig die globale Szenenstabilität beibehalten, wodurch die strukturelle Genauigkeit von Tiefenkarten deutlich verbessert wird.

In mehreren öffentlich verfügbaren Benchmark-Tests erreicht die Zero-Sample-Performance von DVD ein State-of-the-Art-Niveau (SOTA).Darüber hinaus erreichte es mit nur 367.000 Trainingsbildern ein führendes Niveau – eine Reduzierung um den Faktor 163 im Vergleich zu den 60 Millionen Bildern, die gängige diskriminative Verfahren benötigen. Dies bestätigt nicht nur das enorme Potenzial generativer Basismodelle für das geometrische Verständnis, sondern eröffnet auch einen völlig neuen technischen Weg für die kostengünstige und hochpräzise 3D-Videowahrnehmung der Zukunft.

Um Entwicklern einen schnellen Einstieg in die DVD-Welt zu ermöglichen, hat HyperAI ein benutzerfreundliches Notebook auf den Markt gebracht, das die Einstiegshürde senkt und mit nur einem Klick Zugriff auf modernste Modelle (SOTA) bietet. ⬇️

Online ausführen:https://go.hyper.ai/w8kUO

Open-Source-Adresse:https://github.com/EnVision-Research/DVD

Weitere Online-Tutorials:

https://hyper.ai/notebooks

Demolauf

1. Nachdem Sie die Hyper.ai-Homepage aufgerufen haben, wählen Sie die Seite „Tutorials“ aus oder klicken Sie auf „Weitere Tutorials anzeigen“, wählen Sie „DVD: Deterministische Videotiefenschätzung basierend auf generativen Priors“ aus und klicken Sie auf „Dieses Tutorial ausführen“.

2. Nachdem die Seite weitergeleitet wurde, klicken Sie oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

Hinweis: Sie können die Sprache oben rechts auf der Seite ändern. Derzeit sind Chinesisch und Englisch verfügbar. Dieses Tutorial zeigt die Schritte auf Englisch.

3. Wählen Sie die Images „NVIDIA RTX 5090“ und „PyTorch“ aus und klicken Sie auf „Auftragsausführung fortsetzen“.

4. Warten Sie, bis die Ressourcen zugewiesen wurden. Sobald sich der Status auf „Wird ausgeführt“ ändert, klicken Sie auf „Arbeitsbereich öffnen“, um den Jupyter-Arbeitsbereich zu betreten.

Effektanzeige

1. Nachdem die Seite weitergeleitet wurde, klicken Sie auf die README-Datei auf der linken Seite und anschließend oben auf Ausführen.

2. Nach Abschluss des Vorgangs klicken Sie auf die API-Adresse auf der rechten Seite, um die Demo-Oberfläche zu öffnen.

HyperAI

Online-Tutorial | Team Der Hong Kong University of Science and Technology Veröffentlicht Erste DVD Eines Deterministischen Video-Tiefen-Frameworks Als Open Source Und Erzielt Damit Modernste Ergebnisse Mit Zero-Shot-Technologie

vor 2 Tagen

Information

Künstliche Intelligenz

Maschinelles Lernen

Tiefes Lernen

Computer Vision

Online ausführen:https://go.hyper.ai/w8kUO

Open-Source-Adresse:https://github.com/EnVision-Research/DVD

Weitere Online-Tutorials:

https://hyper.ai/notebooks

Demolauf

2. Nachdem die Seite weitergeleitet wurde, klicken Sie oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

Hinweis: Sie können die Sprache oben rechts auf der Seite ändern. Derzeit sind Chinesisch und Englisch verfügbar. Dieses Tutorial zeigt die Schritte auf Englisch.

3. Wählen Sie die Images „NVIDIA RTX 5090“ und „PyTorch“ aus und klicken Sie auf „Auftragsausführung fortsetzen“.

Effektanzeige

1. Nachdem die Seite weitergeleitet wurde, klicken Sie auf die README-Datei auf der linken Seite und anschließend oben auf Ausführen.

2. Nach Abschluss des Vorgangs klicken Sie auf die API-Adresse auf der rechten Seite, um die Demo-Oberfläche zu öffnen.

Verwandt Neuigkeiten

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Tencent Veröffentlicht Hy-MT1.5 Als Open Source: Das 440 MB Große Übersetzungsmodell Bietet Erstklassige Übersetzungsfähigkeiten; MIT Veröffentlicht Gemeinsam MathNet: Einen Multimodalen Benchmark Für Mathematische Inferenz, Der 27.000 Reale Mathematikaufgaben Der Olympiade abdeckt.

Online-Tutorial | Laptop Mit 16 GB RAM Erreicht Fast 26 BPM Leistung: Gemma 4 12B – Basierend Auf Innovativer Architektur Für Die Einheitliche Verarbeitung Von Text-, Bild- Und Tondaten

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

Kostenloses Online-Tutorial Zur CPU | Hermes Agent: Langzeitgedächtnis Lernen? Das Speichererweiterungs-Plugin TencentDB Agent Memory Kann Fakten, Präferenzen, Aufgabenzustände usw. Separat speichern.

Online-Tutorial | Ausführlicher Leitfaden Zu Befehlsverarbeitung/Inferenz/Codierung: Mistral Medium 3.5 Bringt Codierungsagenten in Die Cloud

MiniCPM5-1B, Trainiert Mit RL+OPD, Erzielt Bestleistungen (SOTA) Bei Mehreren Komplexen Aufgaben; Der CHI-Bench-Datensatz Zur Evaluierung Von Medizinischen Agenten, Der Für Die Automatisierung Komplexer Prozesse Im Gesundheitswesen Entwickelt Wurde, Wurde veröffentlicht.

Online-Tutorials | Kompakte Größe, Hohe Leistungsfähigkeit: Qwen 3.6-27B Bietet Programmierfunktionen Auf Flaggschiff-Niveau

Online-Tutorial | NVIDIA Open Source LocateAnything, Ein 3B-Modell, Das Bild- Und Videozielerkennung, Objekterkennung Mit Offenem Vokabular, Ziellokalisierung, OCR-Textlokalisierung Und Weitere Funktionen ermöglicht.

HyperAI

Online-Tutorial | Team Der Hong Kong University of Science and Technology Veröffentlicht Erste DVD Eines Deterministischen Video-Tiefen-Frameworks Als Open Source Und Erzielt Damit Modernste Ergebnisse Mit Zero-Shot-Technologie

vor 2 Tagen

Information

Künstliche Intelligenz

Maschinelles Lernen

Tiefes Lernen

Computer Vision

Online ausführen:https://go.hyper.ai/w8kUO

Open-Source-Adresse:https://github.com/EnVision-Research/DVD

Weitere Online-Tutorials:

https://hyper.ai/notebooks

Demolauf

2. Nachdem die Seite weitergeleitet wurde, klicken Sie oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

Hinweis: Sie können die Sprache oben rechts auf der Seite ändern. Derzeit sind Chinesisch und Englisch verfügbar. Dieses Tutorial zeigt die Schritte auf Englisch.

3. Wählen Sie die Images „NVIDIA RTX 5090“ und „PyTorch“ aus und klicken Sie auf „Auftragsausführung fortsetzen“.

Effektanzeige

1. Nachdem die Seite weitergeleitet wurde, klicken Sie auf die README-Datei auf der linken Seite und anschließend oben auf Ausführen.

2. Nach Abschluss des Vorgangs klicken Sie auf die API-Adresse auf der rechten Seite, um die Demo-Oberfläche zu öffnen.

Verwandt Neuigkeiten

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Tencent Veröffentlicht Hy-MT1.5 Als Open Source: Das 440 MB Große Übersetzungsmodell Bietet Erstklassige Übersetzungsfähigkeiten; MIT Veröffentlicht Gemeinsam MathNet: Einen Multimodalen Benchmark Für Mathematische Inferenz, Der 27.000 Reale Mathematikaufgaben Der Olympiade abdeckt.

Online-Tutorial | Laptop Mit 16 GB RAM Erreicht Fast 26 BPM Leistung: Gemma 4 12B – Basierend Auf Innovativer Architektur Für Die Einheitliche Verarbeitung Von Text-, Bild- Und Tondaten

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

Kostenloses Online-Tutorial Zur CPU | Hermes Agent: Langzeitgedächtnis Lernen? Das Speichererweiterungs-Plugin TencentDB Agent Memory Kann Fakten, Präferenzen, Aufgabenzustände usw. Separat speichern.

Online-Tutorial | Ausführlicher Leitfaden Zu Befehlsverarbeitung/Inferenz/Codierung: Mistral Medium 3.5 Bringt Codierungsagenten in Die Cloud

MiniCPM5-1B, Trainiert Mit RL+OPD, Erzielt Bestleistungen (SOTA) Bei Mehreren Komplexen Aufgaben; Der CHI-Bench-Datensatz Zur Evaluierung Von Medizinischen Agenten, Der Für Die Automatisierung Komplexer Prozesse Im Gesundheitswesen Entwickelt Wurde, Wurde veröffentlicht.

Online-Tutorials | Kompakte Größe, Hohe Leistungsfähigkeit: Qwen 3.6-27B Bietet Programmierfunktionen Auf Flaggschiff-Niveau

Online-Tutorial | NVIDIA Open Source LocateAnything, Ein 3B-Modell, Das Bild- Und Videozielerkennung, Objekterkennung Mit Offenem Vokabular, Ziellokalisierung, OCR-Textlokalisierung Und Weitere Funktionen ermöglicht.

Command Palette

Online-Tutorial | Team Der Hong Kong University of Science and Technology Veröffentlicht Erste DVD Eines Deterministischen Video-Tiefen-Frameworks Als Open Source Und Erzielt Damit Modernste Ergebnisse Mit Zero-Shot-Technologie

Demolauf

Effektanzeige

Command Palette

Online-Tutorial | Team Der Hong Kong University of Science and Technology Veröffentlicht Erste DVD Eines Deterministischen Video-Tiefen-Frameworks Als Open Source Und Erzielt Damit Modernste Ergebnisse Mit Zero-Shot-Technologie

Demolauf

Effektanzeige

Verwandt Neuigkeiten

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Tencent Veröffentlicht Hy-MT1.5 Als Open Source: Das 440 MB Große Übersetzungsmodell Bietet Erstklassige Übersetzungsfähigkeiten; MIT Veröffentlicht Gemeinsam MathNet: Einen Multimodalen Benchmark Für Mathematische Inferenz, Der 27.000 Reale Mathematikaufgaben Der Olympiade abdeckt.

Online-Tutorial | Laptop Mit 16 GB RAM Erreicht Fast 26 BPM Leistung: Gemma 4 12B – Basierend Auf Innovativer Architektur Für Die Einheitliche Verarbeitung Von Text-, Bild- Und Tondaten

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

Kostenloses Online-Tutorial Zur CPU | Hermes Agent: Langzeitgedächtnis Lernen? Das Speichererweiterungs-Plugin TencentDB Agent Memory Kann Fakten, Präferenzen, Aufgabenzustände usw. Separat speichern.

Online-Tutorial | Ausführlicher Leitfaden Zu Befehlsverarbeitung/Inferenz/Codierung: Mistral Medium 3.5 Bringt Codierungsagenten in Die Cloud

MiniCPM5-1B, Trainiert Mit RL+OPD, Erzielt Bestleistungen (SOTA) Bei Mehreren Komplexen Aufgaben; Der CHI-Bench-Datensatz Zur Evaluierung Von Medizinischen Agenten, Der Für Die Automatisierung Komplexer Prozesse Im Gesundheitswesen Entwickelt Wurde, Wurde veröffentlicht.

Online-Tutorials | Kompakte Größe, Hohe Leistungsfähigkeit: Qwen 3.6-27B Bietet Programmierfunktionen Auf Flaggschiff-Niveau

Online-Tutorial | NVIDIA Open Source LocateAnything, Ein 3B-Modell, Das Bild- Und Videozielerkennung, Objekterkennung Mit Offenem Vokabular, Ziellokalisierung, OCR-Textlokalisierung Und Weitere Funktionen ermöglicht.

Command Palette

Online-Tutorial | Team Der Hong Kong University of Science and Technology Veröffentlicht Erste DVD Eines Deterministischen Video-Tiefen-Frameworks Als Open Source Und Erzielt Damit Modernste Ergebnisse Mit Zero-Shot-Technologie

Demolauf

Effektanzeige

Verwandt Neuigkeiten

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Tencent Veröffentlicht Hy-MT1.5 Als Open Source: Das 440 MB Große Übersetzungsmodell Bietet Erstklassige Übersetzungsfähigkeiten; MIT Veröffentlicht Gemeinsam MathNet: Einen Multimodalen Benchmark Für Mathematische Inferenz, Der 27.000 Reale Mathematikaufgaben Der Olympiade abdeckt.

Online-Tutorial | Laptop Mit 16 GB RAM Erreicht Fast 26 BPM Leistung: Gemma 4 12B – Basierend Auf Innovativer Architektur Für Die Einheitliche Verarbeitung Von Text-, Bild- Und Tondaten

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

Kostenloses Online-Tutorial Zur CPU | Hermes Agent: Langzeitgedächtnis Lernen? Das Speichererweiterungs-Plugin TencentDB Agent Memory Kann Fakten, Präferenzen, Aufgabenzustände usw. Separat speichern.

Online-Tutorial | Ausführlicher Leitfaden Zu Befehlsverarbeitung/Inferenz/Codierung: Mistral Medium 3.5 Bringt Codierungsagenten in Die Cloud

MiniCPM5-1B, Trainiert Mit RL+OPD, Erzielt Bestleistungen (SOTA) Bei Mehreren Komplexen Aufgaben; Der CHI-Bench-Datensatz Zur Evaluierung Von Medizinischen Agenten, Der Für Die Automatisierung Komplexer Prozesse Im Gesundheitswesen Entwickelt Wurde, Wurde veröffentlicht.

Online-Tutorials | Kompakte Größe, Hohe Leistungsfähigkeit: Qwen 3.6-27B Bietet Programmierfunktionen Auf Flaggschiff-Niveau

Online-Tutorial | NVIDIA Open Source LocateAnything, Ein 3B-Modell, Das Bild- Und Videozielerkennung, Objekterkennung Mit Offenem Vokabular, Ziellokalisierung, OCR-Textlokalisierung Und Weitere Funktionen ermöglicht.

Verwandt Neuigkeiten

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Tencent Veröffentlicht Hy-MT1.5 Als Open Source: Das 440 MB Große Übersetzungsmodell Bietet Erstklassige Übersetzungsfähigkeiten; MIT Veröffentlicht Gemeinsam MathNet: Einen Multimodalen Benchmark Für Mathematische Inferenz, Der 27.000 Reale Mathematikaufgaben Der Olympiade abdeckt.

Online-Tutorial | Laptop Mit 16 GB RAM Erreicht Fast 26 BPM Leistung: Gemma 4 12B – Basierend Auf Innovativer Architektur Für Die Einheitliche Verarbeitung Von Text-, Bild- Und Tondaten

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

Kostenloses Online-Tutorial Zur CPU | Hermes Agent: Langzeitgedächtnis Lernen? Das Speichererweiterungs-Plugin TencentDB Agent Memory Kann Fakten, Präferenzen, Aufgabenzustände usw. Separat speichern.

Online-Tutorial | Ausführlicher Leitfaden Zu Befehlsverarbeitung/Inferenz/Codierung: Mistral Medium 3.5 Bringt Codierungsagenten in Die Cloud

MiniCPM5-1B, Trainiert Mit RL+OPD, Erzielt Bestleistungen (SOTA) Bei Mehreren Komplexen Aufgaben; Der CHI-Bench-Datensatz Zur Evaluierung Von Medizinischen Agenten, Der Für Die Automatisierung Komplexer Prozesse Im Gesundheitswesen Entwickelt Wurde, Wurde veröffentlicht.

Online-Tutorials | Kompakte Größe, Hohe Leistungsfähigkeit: Qwen 3.6-27B Bietet Programmierfunktionen Auf Flaggschiff-Niveau

Online-Tutorial | NVIDIA Open Source LocateAnything, Ein 3B-Modell, Das Bild- Und Videozielerkennung, Objekterkennung Mit Offenem Vokabular, Ziellokalisierung, OCR-Textlokalisierung Und Weitere Funktionen ermöglicht.

Verwandt Neuigkeiten

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Tencent Veröffentlicht Hy-MT1.5 Als Open Source: Das 440 MB Große Übersetzungsmodell Bietet Erstklassige Übersetzungsfähigkeiten; MIT Veröffentlicht Gemeinsam MathNet: Einen Multimodalen Benchmark Für Mathematische Inferenz, Der 27.000 Reale Mathematikaufgaben Der Olympiade abdeckt.

Online-Tutorial | Laptop Mit 16 GB RAM Erreicht Fast 26 BPM Leistung: Gemma 4 12B – Basierend Auf Innovativer Architektur Für Die Einheitliche Verarbeitung Von Text-, Bild- Und Tondaten

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

Kostenloses Online-Tutorial Zur CPU | Hermes Agent: Langzeitgedächtnis Lernen? Das Speichererweiterungs-Plugin TencentDB Agent Memory Kann Fakten, Präferenzen, Aufgabenzustände usw. Separat speichern.

Online-Tutorial | Ausführlicher Leitfaden Zu Befehlsverarbeitung/Inferenz/Codierung: Mistral Medium 3.5 Bringt Codierungsagenten in Die Cloud

MiniCPM5-1B, Trainiert Mit RL+OPD, Erzielt Bestleistungen (SOTA) Bei Mehreren Komplexen Aufgaben; Der CHI-Bench-Datensatz Zur Evaluierung Von Medizinischen Agenten, Der Für Die Automatisierung Komplexer Prozesse Im Gesundheitswesen Entwickelt Wurde, Wurde veröffentlicht.

Online-Tutorials | Kompakte Größe, Hohe Leistungsfähigkeit: Qwen 3.6-27B Bietet Programmierfunktionen Auf Flaggschiff-Niveau

Online-Tutorial | NVIDIA Open Source LocateAnything, Ein 3B-Modell, Das Bild- Und Videozielerkennung, Objekterkennung Mit Offenem Vokabular, Ziellokalisierung, OCR-Textlokalisierung Und Weitere Funktionen ermöglicht.