人脸识别的起源和未来发展

人脸识别(Face Recognition)是模式识别与计算机视觉领域的一项经典任务,早在20世纪60年代,就有科学家提出了自动人脸识别(Automated Face Recognition)的概念。人脸识别的任务是对输入的人脸图像或者视频,判断其是否存在人脸如果存在人脸,则给出每个人脸的位置、大小信息,并通过提取人脸图像或视频中所蕴涵的身份特征,将其与已知的人脸进行对比,从而识别每个人脸的身份。经过近60年的发展历程,目前人脸识别技术已经存在于我们生活的每一个角落,刷脸上班、刷脸开门、刷脸支付正逐步走入日常生活,给人们带来比以往更便捷的体验。

Anil K. Jain et. al. 50 years of biometric research: Accomplishments, challenges, and opportunities, Pattern Recognition Letters

目前,人脸识别技术按照识别样本的维度可分为二维人脸识别和三维人脸识别两大类,其中二维人脸识别中又可细分为可见光人脸识别、近红外人脸识别以及素描人脸识别。二维人脸识别领域的早期研究主要是通过分析人脸相片和人脸画像中的五官几何特征来识别人的身份,1991年Turk等人提出了特征脸(Eigen Face)通过子空间建模的方法将人脸从高维空间映射到低维空间并在低维空间对人脸进行相似度计算,之后又相继有局部二值模式(Local Binary Pattern),Gabor特征等局部描述子及稀疏表达用于人脸的表征。近几年,随着深度神经网络的流行,端到端的人脸识别算法也逐渐成为了主流,常见的网络框架包括Alexnet, VGGNet, ResNet, MobileNet及ShuffleNet等。由于二维人脸识别易受到采集过程中人脸姿态及环境光的影响,同时得益于三维采集设备(深度相机)的普及,近些年三维人脸识别及三维模型辅助的二维人脸识别也正成为人脸识别研究的新热点。

Mei Wang et. al. Deep face recognition: a survey. arXiv preprint arXiv:1804.06655.

一个完整的人脸识别算法主要包括人脸检测,对齐,特征提取,识别四个步骤。人脸检测的目标是定位图像中的人脸中心及大小,其中最经典的算法是Viola和Jones在2001年提出的VJ框架,它使用简单的Haar-like特征和级联的AdaBoost分类器构造检测器,目前该算法已经作为内置在Matlab,Python,OpenCV等常用平台/开源库中,基于深度网络模型的人脸检测代表性算法MTCNN,通过三个子网络P-Net,R-Net和O-Net分别实现人脸的候选框检测,人脸区域定位和部分人脸关键点的位置回归。人脸对齐的目标是检测人脸五官及关键点的位置,进而调整人脸的大小,姿态,使测试人脸与注册人脸在比对时能有相同的尺度及近似的姿态(角度),主流的关键点检测算法包括传统的级联回归模型(Cascade Regression)以及基于深度神经网络的沙漏模型(Hourglass)。人脸的特征提取目标是在已对齐的人脸样本上提取全局或局部的描述符(特征向量),使其能表征身份信息的同时可以抵抗由于光照,衰老,化妆等外部干扰,随着深度神经网络的发展深度特征在表达人脸方面获得了超越传统算法如LBP,Gabor,Sparse Representation等的性能。人脸的识别则是在前面几步的基础之上对所提取的特征进行相似度的度量,经典的计算两张人脸在特征空间的欧式或余弦距离的算法已经逐步演变为了对深度网络中的损失函数的设计,人脸识别深度模型中常见的损失函数包括交叉熵(Crossentropy),三元组损失(Triplet Loss),Center Loss,AM-Softmax等。

在深度模型的时代,训练数据的质量是获得一个好模型的必要条件,目前常用的人脸数据库包括LFW (5749个人,13233幅图像),CASIA-WebFace (10,575个人,494,414幅图像),MegaFace(672,057个人,470万幅图像)以及MS-CeleB-1M(99,952个人,1049万幅图像)。同时,对训练样本进行数据扩增也是提高识别率和泛化能力的技巧之一,常见的扩增方式包括图像的平移,旋转,翻转,加噪声以及改变图像的亮度、对比度等。

最常见的人脸识别竞赛评价指标包括误识率(FAR, False Accept Rate或FMR, False Match Rate)以及拒识率(FRR, False Reject Rate或FNMR, Fasle Non-Match Rate)。其中误识率是指在标准人脸数据库上测试人脸识别算法时,将不同身份的比对样本对错识别为同一身份的比例,而拒识率是指在标准人脸数据库上测试人脸识别算法时,将同一身份的比对样本对错认为是不同身份的比例。根据应用场景的不同,在实际应用中可以通过调整算法的接受阈值来调节FAR和FRR,例如法医鉴定和民用场景相比商业应用和高安全场景,前者比后者能容忍更高的FAR。在国际知名人脸识别算法竞赛(人脸识别供应商测试,FRVT 2018)中,比赛中最严苛的项目即在签证照片比对的场景下,控制FMR<= 0.000001,比较各算法的FNMR,即比较百万分之一的误识情况下的拒识率,排名第一的算法在该指标上可以达到0.004,值得骄傲的是该比赛前五名的算法均为来自中国的研究团队。

文章来源:知乎Jason博士研究生

西墨智慧,专注于人工智能物联网(AIoT)的国家高新技术企业,公司在互联网音频通信、智能硬件、安防、人工智能方面有深厚的技术积累;在深圳、北京、上海、西安、厦门、长沙、潍坊、昆明、郑州、兰州、重庆、温州、内蒙等地建有服务中心,具有全国服务能力。公司拥有业界领先的基于移动互联网的智慧社区、智慧校园、智慧家庭系列产品及解决方案,主打产品测温人脸识别人脸识别云对讲、手机蓝牙二维码云门禁、社区机器人、智能家居、社区物联网等产品及云平台;为万科、星河、建设银行、金科、长城、方圆、珠江地产、苏宁、富力、上铺、微谷、华润、宏阳集团、佳兆业集团、深圳保利物业集团、旭辉集团、中移物联网等国内多家著名品牌房地产、互联网、安防企业提供产品及服务;产品远销美国、意大利、马来西亚、新加坡、塞尔维亚、英国等海外客户。公司本着客户第一、质量至上、认真踏实、艰苦奋斗的经营理念,开放共赢,不断制造精品,以精品回报客户,为创建更美好社区服务

发表评论

电子邮件地址不会被公开。 必填项已用*标注