HyperAIHyperAI

Command Palette

Search for a command to run...

Moondream3-Vorschau: Modulares Visuelles Sprachverständnismodell

Date

vor 4 Monaten

Size

13.36 MB

Paper URL

moondream.ai

1. Einführung in das Tutorial

Lizenz

Moondream3, im September 2025 vom Moondream-Team vorgestellt, ist ein visuelles Sprachmodell, das auf einer hybriden Expertenarchitektur basiert und über 9 Milliarden Parameter verfügt (davon 2 Milliarden Aktivierungsparameter). Dieses Modell bietet modernste visuelle Inferenzfunktionen, unterstützt eine maximale Kontextlänge von 32.000 und kann hochauflösende Bilder effizient verarbeiten. Moondream3 verwendet die innovativen visuellen Encoder MoE FFN und SigLIP und eignet sich daher für Aufgaben wie Bild-Fragen-Beantwortung, Bildannotation und Objekterkennung. Weiterführende Fachliteratur finden Sie unter … Moondream 3-Vorschau: Grenzüberschreitendes Denken in atemberaubender Geschwindigkeit .

Dieses Tutorial verwendet eine einzelne RTX 5090 Grafikkarte als Ressource, und die Projektausgabe unterstützt nur Englisch.

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass der Code im Hintergrund ausgeführt wird. Bitte warten Sie etwa 2-3 Minuten und aktualisieren Sie die Seite.

Anwendung

1. Bildunterschrift

2. Visuelle Fragenbeantwortung

3. Objekterkennung

4. Punkterkennung

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp