自动化所提出基于真实环境的面部表情分析方法

发表日期：2019-05-14 【大中小】【打印】【关闭】

　　随着人工智能的发展，构建更加自然的人机交互系统(human machine interaction (HMI) systems)跃升为一大研究热点。受心理学的启发，Prendinger、Martinovski和Traum等研究者指出，关注对话主体或对话系统中的情感信息可以有效提升对话满意度，同时减少对话系统出现崩溃的情况。

　　因此，作为人机交互领域的重要研究方向，情感识别吸引了越来越多的目光，而面部表情识别因具有很大的应用价值，更是备受瞩目。例如，不同用户每天都会上传大量图像，这些图像中所呈现的情感状态对于完善推荐系统非常有用，可决定是否向用户推荐相关产品信息。为了自动识别面部图像的情感状态，面部表情识别技术是关键。

　　过去识别面部表情包含多个步骤，需借助手工提取的面部特征，分类器和融合方法。通常，面部特征可以分为两部分：外观特征和几何特征。外观特征研究广泛，包含了方向梯度直方图、局部二值模式、局部相位量化以及尺度不变特征变换。几何特征考虑了头部姿势与人脸关键点坐标。

　　图片来自论文

　　然而，多步预测方法中各步的目标不一致，同时学界对于情感识别中提取特征的标准也没有达成一致。为了正确应对这些问题，端到端方法取代了多步法，并成为解决诸如图像分类、机器翻译、场景分类、图片标题生成以及语音合成等众多问题时所能采取的最先进的方法。在端对端面部表情识别系统中，将标准大小的原始图片作为输入的数据，情感标签作为输出的结果。端对端图像分类器，包括AlexNet、VGG、GoogLeNet、ResNet、DenseNet以及模型的其他变化形式，在经过训练后，能根据输入图片得出对应的情感预测结果。

　　尽管研究者们在提升面部表情识别的性能方面做出了很大努力，但当前研究仍然面临诸多挑战。现实生活中，研究者很难得到不受其他物体遮挡的面部图像。此外，人们的面部也并非时刻保持正向，光照并非时刻达到最佳。因此，在表情识别任务中，获取没有任何干扰的正面人脸成为一大难题。

　　鉴于前人相关研究存在很多局限性，陶建华研究组集中讨论了真实场景中，由不同区域人脸数据生成的情感预测结果的真实性。例如，当只能获取嘴部区域数据时，表情分类器的预测结果为"快乐"，但我们如何计算预测结果的可信值呢？这一问题可以转换成：有多少关于"快乐"的信息可以通过嘴部表达出来？

　　该研究将整个面部划分为六个子区域：鼻部、嘴部、眼部、鼻子至嘴之间、鼻子至眼睛之间，以及嘴巴至眼睛之间。此外，研究者还分析了在现实场景中，不同面部区域对表达不同表情所起到的作用。借助CAM技术，进行情感识别时，面部相关区域得以视觉化。为取得更有说服力的结果，实验分别在三个不同数据库中开展：FER+、RAF-DB 以及ExpW数据集。

　　本研究与Busso的研究有相似之处，他把人脸分为前额、眉毛、眼睛下部、右脸颊、左脸颊五个部分，而后每个区域均由单独的分类器进行表情分类。但是他的实验在可控制条件的实验室环境中进行，而本研究的实验均在真实场景中开展，同时，还将面部划分为更小的区域，评价方法也更多样。

　　该研究成果可以与心理学相结合，对于研究人的行为具有重要作用，而且还可拓展至情感表达的理解当中。

　　论文信息：

　　Expression Analysis Based on Face Regions in Read-world Conditions

新闻中心

科研动态

自动化所提出基于真实环境的面部表情分析方法