Command Palette
Search for a command to run...
Moondream3-Vorschau: Modulares Visuelles Sprachverständnismodell
1. Einführung in das Tutorial
Moondream3, im September 2025 vom Moondream-Team vorgestellt, ist ein visuelles Sprachmodell, das auf einer hybriden Expertenarchitektur basiert und über 9 Milliarden Parameter verfügt (davon 2 Milliarden Aktivierungsparameter). Dieses Modell bietet modernste visuelle Inferenzfunktionen, unterstützt eine maximale Kontextlänge von 32.000 und kann hochauflösende Bilder effizient verarbeiten. Moondream3 verwendet die innovativen visuellen Encoder MoE FFN und SigLIP und eignet sich daher für Aufgaben wie Bild-Fragen-Beantwortung, Bildannotation und Objekterkennung. Weiterführende Fachliteratur finden Sie unter … Moondream 3-Vorschau: Grenzüberschreitendes Denken in atemberaubender Geschwindigkeit .
Dieses Tutorial verwendet eine einzelne RTX 5090 Grafikkarte als Ressource, und die Projektausgabe unterstützt nur Englisch.
2. Projektbeispiele

3. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass der Code im Hintergrund ausgeführt wird. Bitte warten Sie etwa 2-3 Minuten und aktualisieren Sie die Seite.
Anwendung
1. Bildunterschrift

2. Visuelle Fragenbeantwortung

3. Objekterkennung

4. Punkterkennung

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.