Projektübersicht

LiveCC, erstmals am 25. April 2025 vom Show Lab der National University of Singapore und ByteDance veröffentlicht, ist ein videobasiertes Projekt zur Entwicklung großer Sprachmodelle mit Fokus auf die Transkription von Streaming-Sprachdaten. Ziel des Projekts ist es, das erste videobasierte Sprachmodell mit Echtzeit-Kommentarfunktion mithilfe einer innovativen Methode zur automatischen Video-Spracherkennung (ASR) zu trainieren und dabei sowohl im Streaming- als auch im Offline-Betrieb Bestleistungen zu erzielen. Zugehörige Forschungsarbeiten sind verfügbar. LiveCC: Lernvideo-LLM mit Streaming-Sprachtranskription im großen MaßstabEs wurde in CVPR 2025 aufgenommen.

Dieses Tutorial verwendet eine einzelne RTX A6000-Karte als Ressource.

Schritte ausführen

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie mit dem Modell interagieren

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 1–2 Minuten und aktualisieren Sie die Seite.

Dieses Tutorial bietet zwei Modultests: Echtzeitkommentar- und Konversationsmodule.

Wechseln Sie die Modelle nicht häufig, um eine Überlastung der Ressourcen zu vermeiden.

Die Funktionen der einzelnen Module sind wie folgt:

Echtzeitkommentar

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@inproceedings{livecc, author = {Joya Chen and Ziyun Zeng and Yiqi Lin and Wei Li and Zejun Ma and Mike Zheng Shou}, title = {LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale}, booktitle = {CVPR}, year = {2025}, }

HyperAI

Dieses Notebook ausführen

Datum

vor 4 Monaten

Größe

1.05 GB

Projektübersicht

Dieses Tutorial verwendet eine einzelne RTX A6000-Karte als Ressource.

Projektbeispiele

Schritte ausführen

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie mit dem Modell interagieren

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 1–2 Minuten und aktualisieren Sie die Seite.

Dieses Tutorial bietet zwei Modultests: Echtzeitkommentar- und Konversationsmodule.

Wechseln Sie die Modelle nicht häufig, um eine Überlastung der Ressourcen zu vermeiden.

Die Funktionen der einzelnen Module sind wie folgt:

Echtzeitkommentar

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@inproceedings{livecc,
    author       = {Joya Chen and Ziyun Zeng and Yiqi Lin and Wei Li and Zejun Ma and Mike Zheng Shou},
    title        = {LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale},
    booktitle    = {CVPR},
    year         = {2025},
}

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Notebooks

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

vor 2 Monaten

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

vor 3 Monaten

PixelReasoner-RL: Visuelles Inferenzmodell Auf Pixelebene

vor 3 Monaten

SAM3: Visuelles Segmentierungsmodell

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen

Datum

vor 4 Monaten

Größe

1.05 GB

Projektübersicht

Dieses Tutorial verwendet eine einzelne RTX A6000-Karte als Ressource.

Projektbeispiele

Schritte ausführen

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie mit dem Modell interagieren

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 1–2 Minuten und aktualisieren Sie die Seite.

Dieses Tutorial bietet zwei Modultests: Echtzeitkommentar- und Konversationsmodule.

Wechseln Sie die Modelle nicht häufig, um eine Überlastung der Ressourcen zu vermeiden.

Die Funktionen der einzelnen Module sind wie folgt:

Echtzeitkommentar

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@inproceedings{livecc,
    author       = {Joya Chen and Ziyun Zeng and Yiqi Lin and Wei Li and Zejun Ma and Mike Zheng Shou},
    title        = {LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale},
    booktitle    = {CVPR},
    year         = {2025},
}

Verwandt Notebooks

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

vor 3 Monaten

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

vor 2 Monaten

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

vor 3 Monaten

kyutai-tts-1.6 b-en_fr Audio Generation

vor einem Monat

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

vor 2 Monaten

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

vor 2 Monaten

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

vor 3 Monaten

PixelReasoner-RL: Visuelles Inferenzmodell Auf Pixelebene

vor 3 Monaten

SAM3: Visuelles Segmentierungsmodell

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

LiveCC: Echtzeit-Videokommentar Großes Modell

Projektübersicht

Projektbeispiele

Schritte ausführen

Zitationsinformationen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LiveCC: Echtzeit-Videokommentar Großes Modell

Projektübersicht

Projektbeispiele

Schritte ausführen

Zitationsinformationen

Verwandt Notebooks

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

kyutai-tts-1.6 b-en_fr Audio Generation

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

PixelReasoner-RL: Visuelles Inferenzmodell Auf Pixelebene

SAM3: Visuelles Segmentierungsmodell

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LiveCC: Echtzeit-Videokommentar Großes Modell

Projektübersicht

Projektbeispiele

Schritte ausführen

Zitationsinformationen

Verwandt Notebooks

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

kyutai-tts-1.6 b-en_fr Audio Generation

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

PixelReasoner-RL: Visuelles Inferenzmodell Auf Pixelebene

SAM3: Visuelles Segmentierungsmodell

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Notebooks

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

kyutai-tts-1.6 b-en_fr Audio Generation

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

PixelReasoner-RL: Visuelles Inferenzmodell Auf Pixelebene

SAM3: Visuelles Segmentierungsmodell

Verwandt Notebooks

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

kyutai-tts-1.6 b-en_fr Audio Generation

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

PixelReasoner-RL: Visuelles Inferenzmodell Auf Pixelebene

SAM3: Visuelles Segmentierungsmodell