HyperAI초신경

당신의 여자친구가 화가 났나요? 알고리즘은 그녀를 이성애자 남성보다 더 잘 이해합니다.

特色图像

AI 기술을 이용해 사람의 감정을 판단하는 방법은 보통 두 가지가 있는데, 하나는 얼굴 표정을 이용하는 것이고, 다른 하나는 음성을 이용하는 것입니다. 전자는 이미 비교적 성숙된 분야이고, 음성 인식 분야의 감정 연구는 급속히 발전하고 있습니다. 최근, 일부 과학 연구팀은 사용자 음성에서 감정을 더 정확하게 식별하는 새로운 방법을 제안했습니다.

지후에는 이에 대한 기사가 많이 있습니다. 여자친구가 화가 났는지 알아보는 방법이런 질문을 받았을 때, 어떤 사람들은 이렇게 대답했습니다. 단어가 적을수록 문제는 더 커집니다. 다른 사람들은 이렇게 말했습니다: 내가 정말 화가 나면 한 달 동안 연락하지 않을 거야; 화가 난 척할 때는 애교 있게 행동하며 "화가 났어"라고 말한다.

"내 여자친구가 화가 났나요?" 영원한 질문입니다.

그러니까 여자친구의 "화 안 났어/정말 화 안 났어" = "매우 화났어"; "화가 났어" = "버릇없는 아이처럼 행동해, 화난 게 아니야, 그냥 키스해주고, 안아주고, 들어올려 줘". 이런 종류의 감정적 논리는 이성애자 남성을 미치게 만든다.

나는 내 여자친구의 감정을 전혀 느낄 수 없어.

내 여자친구가 화가 났는지 아닌지 어떻게 알 수 있나요?AI가 음악을 듣고 감정을 파악하는 데 성과를 냈다고 하며, 그 결과는 소년이 머리를 긁적이며 오랫동안 생각한 결과보다 더 정확할 수도 있다고 합니다.

알렉사 음성 비서: 따뜻하고 배려심 있는 성격을 키우는 방법

아마존의 음성 비서 알렉사는 감정을 감지하는 면에서 당신의 남자친구보다 더 똑똑할 수도 있습니다.

올해 최신 업그레이드 이후 Alexa가 가능해졌습니다.사용자 명령의 음높이와 음량을 분석하고, 행복, 기쁨, 분노, 슬픔, 과민함, 두려움, 혐오감, 지루함, 심지어 스트레스와 같은 감정을 식별하고 해당 명령에 응답합니다.

예를 들어, 어떤 소녀가 코를 풀고 기침을 하면서 알렉사에게 배가 조금 고프다고 말하면, 알렉사는 그녀의 목소리 톤(약함, 낮음)과 배경 소음(기침, 코 푸는 소리)을 분석하고 그녀가 아플 가능성이 높다고 결론짓고, 기계에서 다음과 같은 배려하는 정보를 보냅니다. 닭고기 수프 한 그릇 드시겠어요, 아니면 테이크아웃 드시겠어요? 아니면 기침약 한 병을 온라인으로 주문하면 한 시간 이내에 집으로 배달해 주는 건 어떨까요?

이런 행동이 이성애 남자친구의 행동보다 더 배려심 있는 게 아닐까?

감정 분류를 위한 인공지능은 새로운 것이 아니지만 최근 Amazon 알렉사 스피치  연구팀은 얼마 전 기존 방법을 깨고 새로운 연구 결과를 발표했습니다.

기존 방법은 감독을 통해 이루어졌으며, 수집된 훈련 데이터는 화자의 감정 상태에 따라 라벨이 지정되었습니다. Amazon의 Alexa Speech 팀 과학자들은 최근 다른 접근 방식을 취해 ICASSP(국제 음향, 음성 및 신호 처리 컨퍼런스)에서 그들의 접근 방식을 소개하는 논문을 발표했습니다."잠재변수의 변분 추론을 통한 감정 분류 개선"(http://t.cn/Ai0se57g)

그들은 완전히 주석이 달린 감정 데이터 집합에 대해 시스템을 훈련하는 대신 다음을 제공했습니다.적대적 오토인코더(AAE). 이 영상에는 10명의 서로 다른 화자가 등장합니다. 10,000 개인발언에 대한 공개 데이터 세트.

그들의 연구 결과에 따르면 사람들의 목소리를 판단할 때(감정 가치) 또는감성적 가치(감정적 가치)신경망정확도가 4% 향상되었습니다.팀의 노력 덕분에 사용자의 음성을 통해 사용자의 기분이나 감정 상태를 확실하게 파악할 수 있게 되었습니다.

AAE 모델 원리의 개략도

이 논문의 공동 저자이자 Alexa Speech 그룹의 수석 응용 과학자인 Viktor Rozgic은 적대적 자동 인코더가 인코더와 디코더라는 두 부분으로 구성된 모델이라고 설명했습니다. 인코더는 훈련 예제의 모든 속성을 인코딩하는 입력 음성의 컴팩트(또는 잠재적) 표현을 생성하는 방법을 학습합니다. 디코더는 컴팩트 표현으로부터 입력을 재구성합니다.

적대적 자동 인코더의 아키텍처

연구자들의 감정 표현은 다음과 같습니다.3개의 네트워크 노드3개의 네트워크 노드는 각각 3가지 감정 측정에 사용됩니다.,활성화(활성화, 화자가 경계하고 있는지, 참여하고 있는지, 수동적인지) 및지배(화자가 주변 상황에 의해 조종된다고 느끼는가?)

훈련 포인트세 단계지휘하다. 첫 번째 단계에서는 레이블이 지정되지 않은 데이터를 사용하여 인코더와 디코더를 별도로 학습합니다. 두 번째 단계는 적대적 학습으로, 적대적 판별기가 인코더가 생성한 실제 표현과 인공적 표현을 구별하려고 시도하는 기술입니다. 이 단계는 인코더를 조정하는 데 사용됩니다. 세 번째 단계에서는 인코더를 조정하여 잠재적 감정 표현이 훈련 데이터의 감정 레이블을 예측하는 데 사용되도록 합니다.

음성 신호에 대한 정보를 수집하기 위해 문장 수준의 특징 표현을 사용하는 "수작업" 실험에서, 해당 AI 시스템은 기존 방식으로 훈련된 네트워크보다 가치를 평가하는 데 3% 더 정확했습니다.

또한, 네트워크에 20밀리초 프레임(또는 오디오 클립)을 나타내는 일련의 음향 특성을 입력했을 때 성능이 4%만큼 향상되었음을 보여줍니다.

MIT 연구실, 1.2초 만에 분노 감지하는 신경망 개발

Amazon은 음성 기반 감정 감지 기술을 개선하기 위해 노력하는 유일한 회사는 아닙니다.MIT 미디어 랩 애펙티바  최근, 신경망 SoundNet이 시연되었습니다. 1.2초 이내(인간이 분노를 인지하는 데 걸리는 시간을 뛰어넘어) 언어에 관계없이 분노와 오디오 데이터를 분류합니다.

Affectiva의 연구원들은 새로운 논문에서 음성에서 분노 감지를 위한 음성 표현으로부터의 전이 학습》(https://arxiv.org/pdf/1902.02120.pdf)해당 시스템은 .에 설명되어 있습니다.음성 및 얼굴 데이터를 기반으로 감정 프로필을 생성합니다.

AI 모델의 일반화를 테스트하기 위해 연구팀은 영어로 학습된 모델을 사용하여 중국어 음성 감정 데이터(Mandarin Affective Corpus, MASC)로 학습된 모델을 평가했습니다. 그 결과영어 음성 데이터에 잘 일반화될 뿐만 아니라 중국어 데이터에도 잘 작동하지만 성능이 약간 떨어집니다.

영어와 중국어 학습 결과의 ROC 곡선,점선은 무작위 분류기의 ROC를 나타냅니다. 

연구팀은 "분노 인식은 대화형 인터페이스와 소셜 로봇, 대화형 음성 응답(IVR) 시스템, 시장 조사, 고객 상담원 평가 및 교육, 가상 및 증강 현실을 포함한 광범위한 분야에 적용될 수 있다"고 밝혔습니다.

향후 작업에서는 다른 대규모 공공 코퍼스를 개발하고 다른 유형의 감정과 정서적 상태를 인식하는 것과 같은 관련 음성 기반 작업을 위한 AI 시스템을 훈련할 것입니다.

이스라엘 앱, 감정 인식 정확도 80%

이스라엘 스타트업 언어를 넘어서  무디스라는 애플리케이션이 개발되었는데, 이 애플리케이션은 마이크를 통해 화자의 음성을 수집하고 약 20초간의 분석 후 화자의 감정적 특성을 판단할 수 있습니다.

무디스는 화자의 리듬, 타이밍, 음량, 멈춤, 에너지 및 기타 감정적 차원을 분석하는 특별한 알고리즘을 보유하고 있습니다.

음성 분석 전문가들은 언어와 감정이 서로 연관되어 있다는 것을 인정하지만, 많은 전문가는 이러한 실시간 측정의 정확성에 의문을 제기합니다. 이러한 도구를 사용하여 수집한 사운드 샘플은 매우 제한적이며, 실제 분석을 위해서는 수년간 샘플을 수집해야 할 수도 있습니다.

컬럼비아 대학교 심리학 조교수인 앤드류 배런은 "현재의 인지 신경 과학 수준으로는 사람의 생각이나 감정을 진정으로 이해할 수 있는 기술이 없습니다."라고 말했습니다.

그러나 Beyond Verbal의 마케팅 부사장인 Dan Emodi는 Moodies가 3년 이상 연구를 진행해 왔으며 사용자 피드백을 바탕으로적용된 분석의 정확도는 약 80%입니다.

Beyond Verbal은 무디스가 자기 감정 진단, 고객 서비스 센터에서 고객 관계를 처리하는 데 사용될 수 있으며, 심지어 구직자가 거짓말을 하는지 감지하는 데에도 사용될 수 있다고 밝혔습니다. 물론, 데이트 현장에 가져가서 상대방이 당신에게 정말 관심이 있는지 확인해 볼 수도 있습니다.

음성 감정 인식은 여전히 과제에 직면해 있습니다.

많은 기술 회사들이 이 분야에서 수년간 연구를 수행해 왔고 좋은 성과를 거두었습니다. 그러나 앤드류 배런이 위에서 언급했듯이 이 기술은 몇 가지 과제에 직면해 있습니다.

여자친구가 "화 안 났어"라고 차분하게 말해도 실제로 화가 나지 않았다는 뜻은 아닌 것처럼, 발음에도 다양한 감정이 담겨 있을 수 있습니다.다양한 감정 사이의 경계를 정의하는 것도 어렵습니다., 현재 지배적인 감정은 무엇입니까?

모든 톤이 뚜렷하고 강렬한 것은 아닙니다. 감정 표현은 개인, 환경, 심지어 문화에 따라 크게 달라지는 매우 개인적인 문제입니다.

또한 기분은 오랫동안 지속될 수 있지만, 그 기간 동안 기분의 변화가 빠르게 나타날 수도 있습니다.감정 인식 시스템은 장기 감정을 감지하는가, 아니면 단기 감정을 감지하는가?예를 들어, 어떤 사람이 실업으로 어려움을 겪고 있지만, 친구들의 걱정 덕분에 잠시 행복을 느낀다고 가정해 보자. 하지만 사실 그는 아직도 슬퍼하고 있다. AI는 자신의 상태를 어떻게 정의해야 할까?

또 다른 우려스러운 점은 이러한 제품들이 사람들의 감정을 이해할 수 있게 되면 사용자에 대한 의존성 때문에 더 개인적인 질문을 하고 사용자에 대한 더 많은 정보를 얻을 수 있지 않을까 하는 것입니다."서비스"를 "거래"로 바꾸시겠습니까?

다바이와 당신을 진심으로 이해해주는 사람이 있기를 바랍니다.

많은 사람들이 따뜻하고 배려심 많은 베이맥스를 원합니다. 공상과학 애니메이션에만 등장하는 높은 감정 지능을 가진 로봇이 미래에 현실이 될까요?

나는 샤오빙에게 매우 느리고 낙담한 어조로 말을 걸었지만, 샤오빙은 무자비한 반응을 보였다.

현재 많은 챗봇은 여전히 감성 지능이 부족하고 사용자의 작은 감정을 파악하지 못하며, 이로 인해 대화가 중단되는 경우가 많습니다. 그러므로 당신을 진정으로 이해할 수 있는 사람은 당신 곁에 머물러 당신의 이야기를 들어주는 사람들입니다.

-- 위에--