Aperçu du projet

LiveCC, lancé le 25 avril 2025 par le Show Lab de l'Université nationale de Singapour et ByteDance, est un projet de modèle de langage à grande échelle basé sur la vidéo et axé sur la transcription vocale en flux continu à grande échelle. Ce projet vise à entraîner le premier modèle de langage à grande échelle basé sur la vidéo, doté de capacités de commentaire en temps réel, grâce à une méthode innovante de reconnaissance vocale automatique (ASR) en flux continu vidéo. Il ambitionne d'atteindre des performances de pointe, tant en streaming qu'en mode hors ligne. Des articles de recherche associés sont disponibles. LiveCC : LLM vidéo d'apprentissage avec transcription vocale en streaming à grande échelleIl a été inclus dans CVPR 2025.

Ce tutoriel utilise une seule carte RTX A6000 comme ressource.

Étapes de course

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois que vous entrez sur la page Web, vous pouvez interagir avec le modèle

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

Ce tutoriel propose deux modules de tests : les modules Commentaire en temps réel et Conversation.

Ne changez pas fréquemment de modèle pour éviter la congestion des ressources.

Les fonctions de chaque module sont les suivantes :

Commentaire en temps réel

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@inproceedings{livecc, author = {Joya Chen and Ziyun Zeng and Yiqi Lin and Wei Li and Zejun Ma and Mike Zheng Shou}, title = {LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale}, booktitle = {CVPR}, year = {2025}, }

HyperAI

Exécuter ce Notebook

Date

il y a 4 mois

Taille

1.05 GB

Balises

Multimodal

Video Captioning

Licence

Apache 2.0

GitHub

showlab/livecc

URL du document

2504.16030

Aperçu du projet

Ce tutoriel utilise une seule carte RTX A6000 comme ressource.

Exemples de projets

Étapes de course

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois que vous entrez sur la page Web, vous pouvez interagir avec le modèle

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

Ce tutoriel propose deux modules de tests : les modules Commentaire en temps réel et Conversation.

Ne changez pas fréquemment de modèle pour éviter la congestion des ressources.

Les fonctions de chaque module sont les suivantes :

Commentaire en temps réel

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@inproceedings{livecc,
    author       = {Joya Chen and Ziyun Zeng and Yiqi Lin and Wei Li and Zejun Ma and Mike Zheng Shou},
    title        = {LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale},
    booktitle    = {CVPR},
    year         = {2025},
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

il y a 3 mois

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook

Date

il y a 4 mois

Taille

1.05 GB

Balises

Multimodal

Video Captioning

Licence

Apache 2.0

GitHub

showlab/livecc

URL du document

2504.16030

Aperçu du projet

Ce tutoriel utilise une seule carte RTX A6000 comme ressource.

Exemples de projets

Étapes de course

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois que vous entrez sur la page Web, vous pouvez interagir avec le modèle

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

Ce tutoriel propose deux modules de tests : les modules Commentaire en temps réel et Conversation.

Ne changez pas fréquemment de modèle pour éviter la congestion des ressources.

Les fonctions de chaque module sont les suivantes :

Commentaire en temps réel

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@inproceedings{livecc,
    author       = {Joya Chen and Ziyun Zeng and Yiqi Lin and Wei Li and Zejun Ma and Mike Zheng Shou},
    title        = {LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale},
    booktitle    = {CVPR},
    year         = {2025},
}

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

il y a 3 mois

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

il y a 2 mois

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

il y a 3 mois

kyutai-tts-1.6 b-en_fr Génération Audio

il y a un mois

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

il y a 2 mois

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

il y a 2 mois

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

il y a 2 mois

PixelReasoner-RL : Modèle d'inférence Visuelle Au Niveau Du Pixel

il y a 3 mois

SAM3 : Modèle De Segmentation Visuelle

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

LiveCC : Commentaire Vidéo En Temps Réel Grand Modèle

Aperçu du projet

Exemples de projets

Étapes de course

Informations sur la citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LiveCC : Commentaire Vidéo En Temps Réel Grand Modèle

Aperçu du projet

Exemples de projets

Étapes de course

Informations sur la citation

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

kyutai-tts-1.6 b-en_fr Génération Audio

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

PixelReasoner-RL : Modèle d'inférence Visuelle Au Niveau Du Pixel

SAM3 : Modèle De Segmentation Visuelle

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LiveCC : Commentaire Vidéo En Temps Réel Grand Modèle

Aperçu du projet

Exemples de projets

Étapes de course

Informations sur la citation

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

kyutai-tts-1.6 b-en_fr Génération Audio

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

PixelReasoner-RL : Modèle d'inférence Visuelle Au Niveau Du Pixel

SAM3 : Modèle De Segmentation Visuelle

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

kyutai-tts-1.6 b-en_fr Génération Audio

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

PixelReasoner-RL : Modèle d'inférence Visuelle Au Niveau Du Pixel

SAM3 : Modèle De Segmentation Visuelle

Associé Notebooks

LongCat-Video : Le Modèle De Génération Vidéo IA Open Source De Meituan

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

kyutai-tts-1.6 b-en_fr Génération Audio

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

Supertonic : Un Modèle De Synthèse Vocale TTS Haute Vitesse Basé Sur ONNX

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

PixelReasoner-RL : Modèle d'inférence Visuelle Au Niveau Du Pixel

SAM3 : Modèle De Segmentation Visuelle