AIが笑い、感情を表現するリアルタイムTTS API「Cartesia Sonic-3」登場——42言語対応で超低遅延の会話型音声生成を実現
Cartesia社が発表した音声AI「Sonic-3」は、リアルタイムで感情や笑いを含む自然なテキストから音声への変換(TTS)を実現した画期的なAPIだ。従来のTTSと異なり、Sonic-3は「笑い」や「興奮」「悲しみ」など複雑な感情をリアルに再現し、会話に深みと人間らしさを加える。たとえば「Oh wow, Valentine's Day snuck up on you, huh? [laughter]」といった自然な会話の流れが、音声として即座に生成可能。この技術により、AIアシスタントやカスタマーサポートの体験が、より人間的で信頼できるものに進化する。 Sonic-3の最大の特徴は、超低遅延のリアルタイム対応。応答速度は「目を閉じるほどの瞬間」で、会話の流れが途切れず、自然なやり取りが可能。世界中の主要都市(サンフランシスコ、東京など)でP50~P99の遅延性能を安定して実現しており、実際のビジネスシーンでの導入に適している。また、42言語をサポートし、インド語を含む9つのインド諸語も自然な発音で対応。国際市場への展開も容易だ。 さらに、略語や頭字語(例:NASA、FBI、UNESCO)を文脈に応じて適切に読み上げる能力があり、正確性も高い。開発者向けには、SDKやAPI、ブラウザ上で試せるプレイグラウンドを提供。10秒でカスタム音声を生成できる「インスタント音声クローン」や、ビジネス向けに最適化された「プロ音声クローン」も利用可能。 医療分野では患者のスケジューリングや保険説明に、信頼できる声で対応。企業はSonic-3を活用し、カスタマーサポート、教育、ゲームなど多様なAIエージェントの開発を加速している。セキュリティ面でもSOC 2 Type II、HIPAA、PCI Level 1などの認証を取得し、企業利用にふさわしい仕様となっている。 Sonic-3は、AI音声の限界を突破し、人間とAIの会話が「まるで本物の会話」のように感じられる時代の幕開けを示している。
