il y a 6 mois

Résumé

Nous explorons le problème de la génération de légendes audio (audio captioning) : la création de descriptions en langage naturel pour tout type d'audio dans des environnements réels, un domaine étonnamment peu étudié dans les travaux antérieurs. Nous proposons un grand ensemble de données comprenant 46 000 extraits audio accompagnés de paires de textes rédigés par des humains, collectées via le crowd-sourcing à partir du dataset AudioSet. Nos études empiriques approfondies démontrent non seulement que nos légendes sont effectivement fidèles aux entrées audio, mais également qu’elles permettent d’identifier les types de représentations audio et les modèles de génération de légendes les plus efficaces pour cette tâche. À partir d’expériences étendues, nous proposons également deux nouveaux composants visant à améliorer les performances du captioning audio : un encodeur multi-échelle à approche haut-bas et une attention sémantique alignée.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Chris Dongjoo Kim Byeongchang Kim Hyunmin Lee Gunhee Kim

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Traitement Audio Et Vocal

Chris Dongjoo Kim Byeongchang Kim Hyunmin Lee Gunhee Kim

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

AudioCaps : Génération de légendes pour des audios dans le monde réel

Chris Dongjoo Kim Byeongchang Kim Hyunmin Lee Gunhee Kim

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

AudioCaps : Génération de légendes pour des audios dans le monde réel

Chris Dongjoo Kim Byeongchang Kim Hyunmin Lee Gunhee Kim

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

AudioCaps : Génération de légendes pour des audios dans le monde réel

Chris Dongjoo Kim Byeongchang Kim Hyunmin Lee Gunhee Kim

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters