Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 4 Monaten

Organisation

GPU-Compute-Airdrop

20 Stunden RTX 5090-Rechenleistung für nur $1 (Wert $7)

Jetzt einlösen

1. Einführung in das Tutorial

Long-VITA ist ein Forschungsergebnis des Tencent YouTu Lab, der Universität Nanjing und der Universität Xiamen, das im Februar 2025 veröffentlicht wurde und multimodale Daten in großem Umfang mit langen Kontexten verarbeitet. Dieses Modell erzielt auch bei kurzen Kontexten eine hohe Genauigkeit und erweitert die Kontextlänge auf bis zu 1 Million Token, wodurch die effiziente Verarbeitung multimodaler Eingaben wie Text und Bilder ermöglicht wird. Die zugehörige Publikation trägt den Titel „…“.Long-VITA: Skalierung großer multimodaler Modelle auf 1 Million Token mit führender Kurzkontextgenauigkeit".

Dieses Tutorial verwendet eine einzelne RTX 4090 Grafikkarte und setzt ein Long-VITA-16K_HF-Modell ein.

2. Effektbeispiele

Textkonversation

Bildverständnis

Videoverständnis

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die interaktive Gradio-Oberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Vorsichtsmaßnahmen

Bei längeren Eingabetexten ist ausreichend Videospeicher erforderlich; es wird empfohlen, sehr große Texte in Stapeln zu laden.
Es wird empfohlen, dass das Bildeingabebild eine Seitenlänge von ≤ 2048 Pixeln aufweist, um die Latenz der Inferenz zu reduzieren.
Falls die Inferenz fehlschlägt, überprüfen Sie bitte das Eingabeformat oder verkürzen Sie die Eingabelänge und versuchen Sie es erneut.

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@misc{shen2025longvitascalinglargemultimodal,
      title={Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy}, 
      author={Yunhang Shen and Chaoyou Fu and Shaoqi Dong and Xiong Wang and Yi-Fan Zhang and Peixian Chen and Mengdan Zhang and Haoyu Cao and Ke Li and Xiawu Zheng and Yan Zhang and Yiyi Zhou and Ran He and Caifeng Shan and Rongrong Ji and Xing Sun},
      year={2025},
      eprint={2502.05177},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.05177}, 
}

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 4 Monaten

Organisation

GPU-Compute-Airdrop

20 Stunden RTX 5090-Rechenleistung für nur $1 (Wert $7)

Jetzt einlösen

1. Einführung in das Tutorial

Dieses Tutorial verwendet eine einzelne RTX 4090 Grafikkarte und setzt ein Long-VITA-16K_HF-Modell ein.

2. Effektbeispiele

Textkonversation

Bildverständnis

Videoverständnis

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die interaktive Gradio-Oberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Vorsichtsmaßnahmen

Bei längeren Eingabetexten ist ausreichend Videospeicher erforderlich; es wird empfohlen, sehr große Texte in Stapeln zu laden.
Es wird empfohlen, dass das Bildeingabebild eine Seitenlänge von ≤ 2048 Pixeln aufweist, um die Latenz der Inferenz zu reduzieren.
Falls die Inferenz fehlschlägt, überprüfen Sie bitte das Eingabeformat oder verkürzen Sie die Eingabelänge und versuchen Sie es erneut.

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@misc{shen2025longvitascalinglargemultimodal,
      title={Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy}, 
      author={Yunhang Shen and Chaoyou Fu and Shaoqi Dong and Xiong Wang and Yi-Fan Zhang and Peixian Chen and Mengdan Zhang and Haoyu Cao and Ke Li and Xiawu Zheng and Yan Zhang and Yiyi Zhou and Ran He and Caifeng Shan and Rongrong Ji and Xing Sun},
      year={2025},
      eprint={2502.05177},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.05177}, 
}

Qwen3-TTS: Hochwertige, Steuerbare, Mehrsprachige Sprachsynthese – Demo

vor 2 Monaten

VibeVoice-ASR: Multifunktionale End-to-End-Spracherkennungsdemo

vor 2 Monaten

ACE-Schritt 1.5: Demo Zur Musikgenerierung

vor 2 Monaten

Phi-4-reasoning-vision-15B Multimodales Denk- Und Sehmodell-Demo

vor einem Monat

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Long-VITA: Eine Multimodale Verständnisdemo Mit Millionen Von Token

GPU-Compute-Airdrop

1. Einführung in das Tutorial

2. Effektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die interaktive Gradio-Oberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden

Vorsichtsmaßnahmen

Zitationsinformationen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Long-VITA: Eine Multimodale Verständnisdemo Mit Millionen Von Token

GPU-Compute-Airdrop

1. Einführung in das Tutorial

2. Effektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die interaktive Gradio-Oberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden

Vorsichtsmaßnahmen

Zitationsinformationen

Verwandte Notebooks

Qwen3-TTS: Hochwertige, Steuerbare, Mehrsprachige Sprachsynthese – Demo

VibeVoice-ASR: Multifunktionale End-to-End-Spracherkennungsdemo

ACE-Schritt 1.5: Demo Zur Musikgenerierung

Phi-4-reasoning-vision-15B Multimodales Denk- Und Sehmodell-Demo

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Long-VITA: Eine Multimodale Verständnisdemo Mit Millionen Von Token

GPU-Compute-Airdrop

1. Einführung in das Tutorial

2. Effektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die interaktive Gradio-Oberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden

Vorsichtsmaßnahmen

Zitationsinformationen

Verwandte Notebooks

Qwen3-TTS: Hochwertige, Steuerbare, Mehrsprachige Sprachsynthese – Demo

VibeVoice-ASR: Multifunktionale End-to-End-Spracherkennungsdemo

ACE-Schritt 1.5: Demo Zur Musikgenerierung

Phi-4-reasoning-vision-15B Multimodales Denk- Und Sehmodell-Demo

KI mit KI entwickeln

HyperAI Newsletters

Verwandte Notebooks

Qwen3-TTS: Hochwertige, Steuerbare, Mehrsprachige Sprachsynthese – Demo

VibeVoice-ASR: Multifunktionale End-to-End-Spracherkennungsdemo

ACE-Schritt 1.5: Demo Zur Musikgenerierung

Phi-4-reasoning-vision-15B Multimodales Denk- Und Sehmodell-Demo

Verwandte Notebooks

Qwen3-TTS: Hochwertige, Steuerbare, Mehrsprachige Sprachsynthese – Demo

VibeVoice-ASR: Multifunktionale End-to-End-Spracherkennungsdemo

ACE-Schritt 1.5: Demo Zur Musikgenerierung

Phi-4-reasoning-vision-15B Multimodales Denk- Und Sehmodell-Demo