HyperAI

NVIDIAは臨床分野の自動音声認識モデルの評価改善を加速させる反復型ワークフローを発表した。医療用語は日常会話に乏しく、市販システムでは認識精度が低下しやすい。また、実臨床音声の収集はプライバシー規制とコストから困難だ。この課題に対し同社は合成音声生成とAIエージェントスキルを活用し、データ収集から評価、モデル改善までを自動化する品質管理サイクルを構築した。本ワークフローはNeMo Data DesignerとNemotron Speechを基盤とする。エージェントスキルが専門分野と対象用語を設定すると、システムはSSMLと国際音声記号を使用して正確な発音注釈を付与した合成音声を自動生成する。新規薬品や特殊術語は人間によるレビューゲートを経て品質が保証され、実臨床環境のプライバシー制約を超えてテストパイプラインへ統合可能となる。評価段階では単語誤り率に加え、対象用語の認識精度を示すエンティティレベルのメトリクスを出力する。エージェントが結果を分析し、発音カバー不足の場合はデータ拡張へ、モデル認識不足の場合はフレームワークを用いたファインチューニングへ判断をルーティングする。この自動化フィードバックループにより、開発者は迅速に改善方針を決定できる。本ソリューションは臨床音声AIの開発期間を短縮し、実環境適用前の厳格な検証を可能にする。合成音声は実録音の代替ではなく特定用語に対する制御テスト手段として機能し、NVIDIAは医療音声技術の精度向上とデプロイメント信頼性向上に寄与する方針だ。

関連リンク

関連リンク

関連リンク

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

Command Palette

臨床ASR評価、NVIDIAで加速

関連リンク

Command Palette

臨床ASR評価、NVIDIAで加速

関連リンク

Command Palette

臨床ASR評価、NVIDIAで加速

関連リンク

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。