Le silence audio est interprété comme une traduction par le modèle Whisper
Résumé de la discussion sur le modèle Whisper de OpenAI Contexte : Le modèle Whisper d'OpenAI, conçu pour transcrire l'audio en texte, présente une particularité intéressante voire préoccupante lorsqu'il traite des fichiers audio completement silencieux. Plus précisément, lorsqu'un fichier audio silencieux est généré et transcrit en arabe par le modèle large-v3, il génère systématiquement la phrase "ترجمة نانسي قنقر", qui signifie "Translation by Nancy Qunqar". Cette anomalie a attiré l'attention des chercheurs et des utilisateurs, soulevant des questions sur la fiabilité du modèle et la possibility de corriger ce comportement. Détail de l'anomalie : Puthre, un utilisateur, a constaté cette anomalie le 13 juin 2025. Il a généré un fichier audio silencieux de 30 secondes en utilisant FFmpeg, puis l'a transcri en arabe avec le modèle large-v3. Le résultat inattendu était toujours la même phrase sans rapport avec le contenu audio, suggérant une erreur de modèle ou une interprétation incorrecte du silence. Explications et solutions proposées : 1. Misutoneko (14 juin 2025) : - Suggère l'utilisation d'un VAD (Voice Activity Detection), un système capable de détecter la présence ou l'absence de parole dans un signal audio. Ceci pourrait permettre d'éviter que le modèle n'interprète le silence comme du texte. - Note que les modèles plus anciens de Whisper produisent également des hallucinations lorsqu'ils rencontre le silence, mais offrent plus d'options pour gérer ces erreurs. Par exemple : - Utiliser la technique suppress_tokens pour supprimer certains tokens spécifiques. - Définir un initial prompt comme un point (".") pour guider le modèle. - Ajuster le logprob_threshold à -0.4, bien que cela puisse ne pas être optimale pour une utilisation générale. Navanit-git (8 juillet 2025) : Demande si des modèles alternatifs en arabe ont été trouvés et suggère des options meilleures que le modèle large-v3. Cependant, il n'y a pas de réponses spécifiques à cette question. Rjb729951 (17 juillet 2025) : Signale un phénomène similaire en allemand, où le modèle génère souvent "Untertitelung des ZDF für funk, 2017." (Sous-titrage du ZDF pour funk, 2017). Cette phrase apparaît souvent à la fin des vidéos où il y a un silence prolongé. KillerX (22 juillet 2025) : Explique que cette anomalie peut être liée à la manière dont Whisper a été formé. Le modèle a été entraîné sur des données provenant de YouTube, y compris des sous-titres. Souvent, les sous-titres contiennent une mention de droits d'auteur à la fin des vidéos, tandis que les fins de vidéos peuvent être accompagnées de crédits, de musique, d'applaudissements ou de silence. Whisper a donc appris à associer le silence à une mention de droits d'auteur. Fournit un lien vers une recherche comparable pour l'exemple norvégien : Who is Nicolai Winther?. Qpwo (22 juillet 2025) : Ajoute que, dans le cas de l'anglais, le modèle genère souvent des applaudissements lorsqu'il rencontre du silence. Conclusion : Cette discussion met en évidence le besoin de développer des méthodes robustes pour gérer les entrées silencieuses dans les modèles de transcription automatisée. L'utilisation de VAD, l'ajustement de paramètres spécifiques et la recherche de modèles alternatifs sont des avenues prometteuses pour améliorer la précision des transcriptions. La compréhension des biais de formation des modèles, notamment ceux issus de grandes bases de données comme YouTube, est également cruciale pour corriger ces comportements indésirables. Évaluation de l'industrie et profil d'OpenAI : Les révélations issues de cette discussion soulignent l'importance de la validation rigoureuse des modèles de traitement du langage naturel, particulièrement ceux utilisés dans des applications critiques. OpenAI, connu pour ses avancées significatives dans le domaine de l'intelligence artificielle, continue à travailler sur l'amélioration de Whisper, en collaborant étroitement avec la communauté utilisateur pour identifier et corriger les anomalies. Ce type de feedback est invaluable pour le développement continu de modèles plus fiables et performants.