LAIONとIntelが開発、40種類の感情を認識するAIツール「Empathic Insight」を公開
LAIONとIntelが協力して、AIシステムが人間の感情をより正確に理解できる新ツール「Empathic Insight」を発表しました。このオープンソースプロジェクトは、顔画像または音声ファイルから40種類の感情の強さを評価するモデルとデータセットを含んでいます。 特徴 - 顔情感分析: 画像からの感情評価に0〜7のスケールを使用。 - 音声情感分析: 音声からの感情評価は「存在せず」「わずかにある」「強くある」の3段階。 これらのモデルは「Handbook of Emotions」に基づいて開発された40種類的情感カテゴリを識別できます。基本的感情だけでなく、集中や混乱などの心理状態、痛みや疲労などの物理的状態、恥や自慢などの社会的状態も対象としています。研究者は、感情は普遍的に理解できるものではなく、脳が多様な信号から構築すると主張しています。したがって、これらのモデルは確率推定で動作します。 学習データ 学習には203,000枚以上の顔画像と4,692種類の音声サンプルが使用されました。音声データは、Laion's Got Talentデータセットから取得され、OpenAIのGPT-4o音声モデルを使用して生成されました。プライバシー問題の回避と人口統計的な多様性の向上のために、全データは合成データを使っています。顔画像はMidjourneyやFluxなどのテキストから画像への変換モデルで作成され、年齢、性別、人種などで変更されています。すべての音声サンプルは心理学の専門家によってレビューされ、3人の独立したレビュアーの合意を得たもののみがデータセットに含まれました。 性能 LAIONは、既存の感情認識AIに比べてEmpathic Insightモデルが優れた結果を示しているとしています。特に顔表情認識においては、Gemini 2.5 ProやHume AIなどの閉じたソースAPIを上回り、心理学の専門家の評価との相関係数が40%に対して他モデルは25-30%となっています。音声感情認識でも、40種類全て的情感カテゴリを正しく識別する能力を持ち、既存の音声モデルよりも高い性能を発揮しています。 追加機能: BUD-E Whisper LAIONはさらにBUD-E Whisperを開発し、感情のトーンを構造化した記述で追加し、笑い声やため息などの声の突発的な表現を検出し、話者の年齢や性別を推定することも可能にしました。これはOpenAIのWhisperモデルのアップグレード版で、音声を文字に変換するだけでなく、感情をより詳しく分析できます。 公開とサポート Empathic InsightとBUD-E Whisperのモデルとコードは、それぞれCreative CommonsLicenceとApache 2.0 Licenceで公開されており、Hugging Faceからダウンロード可能です。モデルは「Small」と「Large」の2種類があり、異なる用途やハードウェア条件に対応できます。 Intelは2021年からこのプロジェクトを支援しており、主にIntelのハードウェア上で最適化することに重点を置いています。