il y a 7 mois

Sami Abu-El-Haija; Nisarg Kothari; Joonseok Lee; Paul Natsev; George Toderici; Balakrishnan Varadarajan; Sudheendra Vijayanarasimhan

Résumé

De nombreux progrès récents en Vision par Ordinateur sont attribués à de grands ensembles de données. Les logiciels open source pour l'Apprentissage Automatique et les matériels bon marché ont réduit les obstacles à l'exploration de nouvelles approches à grande échelle. Il est possible d'entraîner des modèles sur plusieurs millions d'exemples en quelques jours. Bien que des ensembles de données à grande échelle existent pour la compréhension des images, tels qu'ImageNet, il n'existe pas de jeux de données comparables pour la classification vidéo.Dans cet article, nous présentons YouTube-8M, le plus grand ensemble de données de classification vidéo multi-étiquettes, composé d'environ 8 millions de vidéos (500 000 heures de vidéo), annotées avec un vocabulaire de 4800 entités visuelles. Pour obtenir les vidéos et leurs étiquettes, nous avons utilisé un système d'annotation vidéo YouTube, qui étiquette les vidéos avec leurs principaux sujets. Bien que ces étiquettes soient générées par machine, elles sont précises et dérivées d'une variété de signaux humains, notamment des métadonnées et des signaux de clics sur les requêtes. Nous avons filtré les étiquettes des vidéos (entités du Knowledge Graph) en utilisant des stratégies d'automatisation et de curation manuelle, y compris en demandant aux évaluateurs humains si les étiquettes sont visuellement reconnaissables. Ensuite, nous avons décrypté chaque vidéo à une fréquence d'un cadre par seconde et avons utilisé un réseau neuronal convolutif profond pré-entraîné sur ImageNet pour extraire la représentation cachée immédiatement avant la couche de classification. Enfin, nous avons compressé les caractéristiques des cadres et rendu disponibles à la fois les caractéristiques et les étiquettes au niveau vidéo pour téléchargement.Nous avons entraîné divers modèles de classification (modestes) sur l'ensemble de données, évalués en utilisant des métriques populaires, et nous rapportons ces résultats comme lignes directrices. Malgré la taille importante du jeu de données, certains de nos modèles atteignent la convergence en moins d'un jour sur une seule machine en utilisant TensorFlow. Nous prévoyons de publier le code pour entraîner un modèle TensorFlow ainsi que pour calculer les métriques.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Compréhension Vidéo

Vision Par Ordinateur

Apprentissage Profond

Domaine De Recherche

Vision Par Ordinateur

Tâche

Sami Abu-El-Haija; Nisarg Kothari; Joonseok Lee; Paul Natsev; George Toderici; Balakrishnan Varadarajan; Sudheendra Vijayanarasimhan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Compréhension Vidéo

Vision Par Ordinateur

Apprentissage Profond

Domaine De Recherche

Vision Par Ordinateur

Tâche

Sami Abu-El-Haija; Nisarg Kothari; Joonseok Lee; Paul Natsev; George Toderici; Balakrishnan Varadarajan; Sudheendra Vijayanarasimhan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

YouTube-8M : Une grande base de référence pour la classification vidéo à grande échelle

Sami Abu-El-Haija; Nisarg Kothari; Joonseok Lee; Paul Natsev; George Toderici; Balakrishnan Varadarajan; Sudheendra Vijayanarasimhan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

YouTube-8M : Une grande base de référence pour la classification vidéo à grande échelle

Sami Abu-El-Haija; Nisarg Kothari; Joonseok Lee; Paul Natsev; George Toderici; Balakrishnan Varadarajan; Sudheendra Vijayanarasimhan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

YouTube-8M : Une grande base de référence pour la classification vidéo à grande échelle

Sami Abu-El-Haija; Nisarg Kothari; Joonseok Lee; Paul Natsev; George Toderici; Balakrishnan Varadarajan; Sudheendra Vijayanarasimhan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters