博亚体育app官网入口

博亚杂志No.15

安防AI之情感计算

周迪 徐爱华

人工智能期望计算机系统能够履行人类智慧能够完成的任务,这里的人类智慧包括智力和情感。智力计算已经在多个领域获得了规模应用,而情感计算却在很长一段时间内独立于AI领域之外。早在1997年Rosalind Picard就提出了“情感计算”的理论,2014年被应用于俄罗斯冬奥会之后,情感识别技术更是受到了国际组织的高度重视,被视为继指纹、声纹、人脸之后的公共安全高级应用。


图 Rosalind Picard,麻省理工学院教授,开创了计算机科学和人工智能学科中的新分支——情感计算(Affective Computing)。她在MIT的跨领域尖端科学实验室Media Lab从事机器学习与神经科学的交叉研究,创立了Media Lab情感计算研究部。她同时是两家初创公司Affectiva和Empatica的联合创始人,前者研发情绪识别、监测技术,后者生产整合这些技术的医疗传感器,例如医用可穿戴设备。

情感计算的原理与模型

情感计算研究的重点,在于通过各种传感器采集由人的情感所引起的生理及行为特征信号,建立“情感模型”,从而获得感知、识别和理解人类情感的能力,并进而做出针对性的智能、灵敏、友好的反应。情感计算可分为四个过程:情感信息采集、情感识别分析、情感理解认知、情感信息表达。

情感虽是一种内部的主观体验,但总伴随着某些表现形式,包括面部表情(面部肌肉变化形成的模式)、语音表情(言语的声调、节奏和速度等变化)、姿态表情(身体其他部分的表情动作)、生理情感和文本情感等。


图 情感模型数据流程

面部表情

面部表情是鉴别人类情感的主要标志。通过研究人员面部的微小表情变化,AI系统可以识别其面容背后的情感活动。例如区分真笑和假笑:人在真笑时面颊上升,眼周围的肌肉堆起;而假笑时仅有嘴唇的肌肉活动,下颚下垂。通过脸部不同运动单元的组合,可以在脸部形成复杂的表情变化,如幸福、愤怒、悲伤等。


图 不同情绪表现出不同的面部表情

语音表情

语音是人际交往最直接的交流途径。语音表情是通过语音的高低、强弱、抑扬顿挫来表达说话人的情感。一句“你真行!”,既可以表示赞赏,也可能表示讽刺。语音中的情感特征往往通过语音韵律的变化表现出来,例如当人发怒时,讲话的速率可能变快、音量变大、音调变高等,也可以同时通过一些音素特征,例如共振峰、声道截面等表现出来。


图 语音的高低、强弱、抑扬顿挫等表达的语音表情,竹间智能体育(Emotibot Technologies)图片

姿态表情

姿态表情一般伴随着交互过程而发生变化,表达了潜在的情感信息。例如,一个手势的加强通常反映了一种强调的心态,而其身体某一部位不停地摆动则通常反映其情绪的紧张。人类姿态的变化使情感表述更加生动。相对于面部表情和语调表情,姿态表情会使情感表述更加生动,是当前情感计算的研究热点。


图 手势、坐姿等姿态表情

生理情感

生理表情是通过人类生理细微变化,观察多种情绪的特定波动变化的模式(如心电图、皮肤电活动等),识别人们思想情绪的变化。例如当人们感受到压力而紧张或有不良企图以致情绪亢奋时,身体交感神经就会启动相关必要的机能,例如,心跳加速、血压上升、呼吸变快、体温增高,乃至于肌肉皮肤颤动等生理变化。

文本情感

文本情感分析是通过挖掘与分析文本中的观点、看法、情绪及好恶等主观信息,对文本中词、句和篇章的情感色彩做出判断。比如一个人说“桌子上有一层灰”,这没有任何情感词,但实际上已经表达了他的不满。再比如,“从下单到收货不到24小时”表明他称赞快递速度很快。

情感状态的识别和理解,是赋予系统理解人类的情感,并做出合适预警的关键步骤。为了使计算机更好地完成情感识别任务,科学家已经对人类的情感状态进行了合理清晰的分类。目前,在情感识别和理解的方法上运用了模式识别、人工智能、语音和图像技术的大量研究成果。例如,在情感语音的声学分析基础上,运用线性统计方法和神经网络模型,实现了基于语音的情感识别原型;通过对面部运动区域进行编码,采用HMM等模型,建立了面部情感特征的识别方法;通过对人姿态和运动的分析,探索肢体运动的情感类别等。

情感计算的研究现状与成果

情感计算是一个高度综合化的技术领域。截至目前,有关研究已经在人脸表情、语音理解、姿态分析、多模态情感识别方面获得了一定的进展。

脸部表情

国际著名心理学家Paul Ekman和研究伙伴W.V.Friesen对人脸面部表情作了深入研究,通过观察和生物反馈,于1976年描绘出了不同的脸部肌肉动作和不同表情的对应关系,即面部表情编码系统FACS。FACS根据人脸的解剖学特点,将人脸划分成若干既相互独立又相互联系的运动单元,分析了这些运动单元的运动特征及其所控制的主要区域以及与之相关的表情,并给出了大量的照片说明。

FACS是如今面部表情的肌肉运动的权威参照标准,也被心理学家和动画片绘画者使用。为满足视频信息传输的需要,人们进一步将人脸识别和合成的工作融入到视频图像编解码之中。典型如MPEG4 V2视觉标准,其中定义了3个重要的参数集:人脸定义参数、人脸内插变换、人脸动画参数。

当前人脸表情处理技术的研究热点,多侧重于对三维图像的更加细致的描述和建模。通常采用复杂的纹理和较细致的图形变换算法,达到生动的情感表达效果。在此基础上,不同的算法形成了不同水平的应用系统。

语音理解

目前,国际上对情感语音的研究主要侧重于情感的声学特征分析。中国科学院自动化研究所模式识别国家重点实验室的专家们针对语言中的焦点现象,首先提出了情感焦点生成模型。这为语音合成中情感状态的自动预测提供了依据,结合高质量的声学模型,使得情感语音合成和识别达到了实用水平。

姿态变化

针对肢体运动,科学家专门设计了一系列运动和身体信息捕获设备,例如运动捕获仪、数据手套、智能座椅等。国外一些著名的大学和跨国公司,例如麻省理工学院、IBM等则在这些设备的基础上构筑了智能空间。也有人将智能座椅应用于汽车的驾座上,用于动态监测驾驶人员的情绪状态,并提出适时警告。意大利的科学家还通过一系列的姿态分析,对办公室的工作人员进行情感自动分析,设计出更舒适的办公环境。

生理识别

不同的生理信号的特征模式也是情感识别的重要依据之一。人的生理信号比起面部表情和语音,识别难度更大,所以目前生理模式的情感识别研究还处于初级阶段。哪些信号可以转化为情感参数、信号各个方面的权重、比例应该是多少,这些都还需要进行进一步研究和探索。

文本情感计算

文本情感计算是自然语言处理的一个研究分支,其工作展开的关键在于情感特征提取和情感分类方法的不断进步优化。

尽管经过了大量研究,文本情感计算取得了很大的进展,但整体仍处于探索阶段,存在一些亟待解决和研究的问题:缺乏规范统一的实验语料和词典。目前针对语言规律和句子语义成分的分析问题,还没有成熟的解决方案。

多模态的情感计算

虽然人脸、语音、姿态、生理、文本均能独立地表示一定的情感,但只有实现多通道的情感信息采集,才能实现完整的情感识别。这通常要求系统集自然语言、语音、手语、人脸、唇读、头势、体势等多种交流通道于一体,进行综合的采集、分析和识别。

目前,多模态技术正在成为情感计算的研究热点,实现情感的多特征融合,能够有力地提高情感计算的研究深度。美国麻省理工学院、日本东京体育大学、美国卡内基·梅隆大学均在情感机器人、情感虚拟人的研究领域做出了较好的演示系统。中科院自动化所模式识别国家重点实验室也已将情感处理融入到了多模态交互平台中,结合情感语音合成、人脸建模等技术,构筑了栩栩如生的情感虚拟头像。

情感计算的安防应用前景

情感计算在安防领域具有广泛的应用前景。计算机通过对人类面部表情、语音表情、姿态表情、生理表情和文本情感的获取、分类和识别,可以及时获取目标对象的情感变化,并对异常危险行为提出预警,实施相应的应对措施。

目录
刊首语
宇事
市场
产品及方案
工业党
博亚帮APP

博亚帮APP
渠道合作伙伴量身定制