基于人类基础情感情绪变化 人类基础情感


基于人类基础情感情绪变化 人类基础情感



人类的情感是很玄妙的东西 。早在两千年前 , 亚里士多德就意识到情感在社会交流中的作用 。比如,他认为一个在合适场合能有点儿脾气的人值得敬重 , 没脾气的反而是傻瓜 。换句话说,情感本身就是一种智能 。Rosalind Picard的《Affective Computing》一书是情感计算的起点 。Picard认为,如果我们希望计算机拥有通用智能语音并实现和人的自然交互,那么必须让它具有识别、理解,甚至拥有和表达情感的能力 。到目前为止 , 让机器拥有情感这件事还很困难,但在交互中识别出人的情感还是有可能的 。
图1:带有喜感的机器人[1]
目前对情感类别的定义并不统一 。语音之家比较有代表性的是Ekman的离散情感理论,这一理论认为人类有六种基础情绪 :愤怒(Anger)、恐惧(Fear)、 厌恶(Disgust)、惊讶(Surprise)、快乐(Happiness)、悲伤(Sadness) 。这些基础情绪是与生俱来,且与人种、文化无关的 。基于这些基础情感,通过一定的比例互相混合可以派生出其它各种情感[3] 。
【基于人类基础情感情绪变化 人类基础情感】图2:Ekman定义的六种情感[3]
语音之家通过人的情感有多种表现方式,包括语言 , 声音,脸部表情,肢体动作等,都是情感的表达渠道 。在这些表达渠道中,声音表达情感灵活自然 , 因此受到广泛关注 。那么,如何让机器通过声音识别情感呢?
智能语音传统识别方法基于特征提取 统计建模的基础框架 。首先从声音中提取和情感有关的特征 , 如发音能量、基频、共振峰位置、语速和停顿等 。一些语音质量的变化,如压力感、沙哑、喘息、基频上的抖动等,也是出现极端情绪的表征 。有了这些基础特征,通常还需要对这些特征进行统计,以确定在一句话中这些特征的分布情况,包括均值、方差等 。有了这些统计量,就可以建立分类模型对情感进行预测 。常用的统计模型包括高斯混合模型(GMM)、隐马尔可夫模型(HMM),支持向量机(SVM) , 神经网络(NN)等[4] 。
手动原地排气自洁步骤,颗粒捕集器正在自洁要多久手动原地排气自洁步骤 汽油车: 1、把车辆停放在平坦空旷的室外,禁止在地下车库或室内进行操作; 2、启动发动机,拉起手刹并把挡位 。
智能语音深度学习兴起后 , 基于深度神经网络的情感识别方法得到广泛应用 。图3是一个基于卷积神经网络(CNN)的情感识别系统,输入为一段语音信号,经过若干卷积和池化操作后输出情感类别 。实验结果表明,在一个包括10位发音人5种情感的数据库上 , 这一方法可得到40%的正确率 。
严禁动员组织中小学生参加山林火灾的扑救工作 。同时要加强不准中小学生参加扑救森林火灾的教育管理 , 遇有自发扑救森林火灾的情况,学校和有关部门应及时加以劝阻,以防止发生不必要的人身伤亡事故 。
图3:基于深度卷积网络的5种情感识别系统[2]
尽管取得了一定进步,情感识别依然是很困难的任务 。一方面情感的定义本身就比较模糊,对一个人而言愤怒或悲伤的声音对另一个人也许感觉不到什么;同时,获取情感数据目前还比较困难,大部分由专业演员模拟生成,真实性有待提高 。现在人们倾向认为,如果综合利用视频、音频和发音内容信息,有望显著提高情感识别的性能 。
语音之家助力AI语音开发者的社群
人贵在诚实:只化妆,不伪装 我的爷爷、奶奶相信:人,要么是诚实的 , 要么是不诚实的,没有介于二者之间的 。在他们起居室的墙上 , 挂着一幅极其通俗的格言:人生就像刚刚下过雪的一片原野,我走的每一步都会显示在上面 。他们不用高谈阔论,而是用他们的生活实践来诠释这条...

    猜你喜欢