「Whisperが静音を「ナンシー・クンカー訳」として認識する現象」
記事の要約 2025年6月13日、OpenAIの音声認識モデルWhisperについて、完全な沈黙を含む音声ファイルが特定の文字列として誤認識される問題が報告された。例えば、アラビア語の場合は「ترجمة نانسي قنقر」(Nancy Qunqarによる翻訳)、ドイツ語の場合は「Untertitelung des ZDF für funk, 2017.」(ZDFふぁんく用の字幕提供、2017)と認識される。これらの误認識は、WhisperがYouTubeの音声と字幕のデータで訓練されたため、視覚情報を伴わない長い沈黙が字幕クレジットを示すと考えてしまった结果と思われる。 ユーザーmisutonekoは、早期のモデルでは無音に対する出力は言語に関わらず雑多なテキストだったが、v3では固定の文字列を生成すると指摘。また、小規模モデルではsuppression tokensやlogprob_thresholdの調整などで無音認識を改善できる提案も行った。しかし、v3ではこれらの方法が効果的でない可能性がある。 他のユーザーたちは、より良い無音認識モデルを求めている状況が報告されており、Navanit-gitは更なる改善のあるモデルを探していると述べた。また、rjb729951は同じ現象が主に動画の終わり近くで発生することが確認され、Whisperの訓練データ特性による影響を疑っている。 業界関係者のコメントおよび会社概要 この現象は、OpenAIの音声識別モデルWhisperの訓練データの偏りにより引き起こされていると考えられており、研究者たちは異なる言語での同様の錯誤事例を調査している。Nicolai Wintherのノルウェー語の事例研究のように、動画最後の長時間沈黙が特定のテキストに一致しやすくなる背景には、訓練データの元となる字幕やクレジットの形式が深くかかわっているという见解が出ている。このような事象に対処する方法として、VAD(Voice Activity Detection)や初期プロンプトの設定などが検討されている。OpenAIは、Whisperの性能向上と誤認識防止に向けて、継続的に改善と更新を進めている。