HyperAI

Le Retrieval-augmented Few-shot In-context Audio Captioning est une technique de génération de descriptions audio qui utilise le principe de l'apprentissage in-contexte à partir de quelques exemples. Lors de l'inférence, elle génère des descriptions textuelles précises et appropriées en contexte en récupérant quelques exemples pertinents des données d'entraînement, sans nécessiter un entraînement à grande échelle sur des jeux de données spécifiques. Cette méthode permet ainsi une compréhension et une étiquetage efficaces et flexibles du contenu audio.

AudioCaps

Audio Flamingo (4-shot)

HyperAI

AudioCaps

Audio Flamingo (4-shot)

Command Palette

Récupération augmentée de légendes audio en few-shot

Command Palette

Récupération augmentée de légendes audio en few-shot

Command Palette

Récupération augmentée de légendes audio en few-shot