Command Palette
Search for a command to run...
Moondream3-Vorschau: Modulares Visuelles Sprachverständnismodell
1. Einführung in das Tutorial
Moondream3 ist ein visuelles Sprachmodell, das auf einer hybriden Expertenarchitektur basiert, die vom Moondream-Team im September 2025 vorgeschlagen wurde. Es verfügt über 9 Milliarden Parameter (davon 2 Milliarden Aktivierungsparameter). Dieses Modell bietet modernste visuelle Argumentationsfähigkeiten, unterstützt eine maximale Kontextlänge von 32 KB und kann hochauflösende Bilder effizient verarbeiten. Moondream3 verwendet die innovativen visuellen Encoder MoE FFN und SigLIP und eignet sich für Aufgaben wie die Beantwortung von Bildfragen, Bildannotationen und Objekterkennung. Verwandte Fachliteratur ist „Moondream 3-Vorschau: Grenzüberschreitendes Denken in atemberaubender Geschwindigkeit".
Dieses Tutorial verwendet eine einzelne RTX 5090 Grafikkarte als Ressource, und die Projektausgabe unterstützt nur Englisch.
2. Projektbeispiele

3. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass der Code im Hintergrund ausgeführt wird. Bitte warten Sie etwa 2-3 Minuten und aktualisieren Sie die Seite.
Anwendung
1. Bildunterschrift

2. Visuelle Fragenbeantwortung

3. Objekterkennung

4. Punkterkennung

KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.