人臉識別技術的真相是什么
人臉識別是機器學習的直接應用,這項技術已經(jīng)被消費者、行業(yè)和執(zhí)法機關廣泛采用,它可能為我們的日常生活帶來了便利,但也有嚴重的隱私問題。人臉識別已經(jīng)超過了人類的工作效率,但是,在某些應用中實際實現(xiàn)時還存在問題。
立足于九十年代MIT的Eigenfaces方法,人臉識別第一次成功的大規(guī)模實現(xiàn)是2014年Facebook的DeepFace項目,準確性在實驗室條件下達到了人類水平。從2014年開始,更大的訓練數(shù)據(jù)集、GPU以及神經(jīng)網(wǎng)絡架構的快速發(fā)展進一步提高了人臉識別在通向現(xiàn)實世界可靠應用的更為豐富的上下文中的效率。
人臉識別的應用可以分類兩類:身份驗證和識別。這兩種場景起初都會把一組已知的主體注冊到系統(tǒng)中(圖庫),在測試期間,提供一個新的主體(測試圖像)。人臉驗證會計算圖庫和測試圖像之間一對一的相似性,從而確定兩副圖像是否是相同的主體。例如,iPhone X基于人臉的登錄功能或者機場的邊境檢查就是使用了這樣的生物特征身份認證解決方案。目前,HSBC和Ticketmaster都考慮在他們的移動應用程序中使用人臉驗證。另一方面,人臉識別計算一對多的相似性,從而在預先做好識別的人物圖庫中正確地識別出測試圖像。它的主要應用是把未標記的照片和已知的資料進行匹配。其中,執(zhí)法機關會使用這項技術從人群中識別出他們感興趣的人。
人臉識別技術還可以用于推斷人的特征和行為,如情緒、年齡或健康狀況。斯坦福大學最近一項頗具爭議的研究表明,基于一個從TInder抽取的數(shù)據(jù)集,使用人臉分析方法預測一個人的性取向時準確率可達81%。
全球人臉識別市場主要在消費品、工業(yè)應用和執(zhí)法三個領域,據(jù)Allied Market Research和Report Buyer介紹,到2022年,這個市場有望達到90億美元。生物識別解決方案市場的主要參與者包括Safran(FR)、NEC CorporaTIon(JA)、Cognitec(DE)和Face++(CH)。
但是,人臉識別是一種不同于其他技術的生物識別工具。喬治敦隱私&技術法律中心執(zhí)行董事、人臉識別專家Alvaro Bedoya在近日接受USA Today采訪時說,“你可以刪除cookies。你可以修改瀏覽器設置。你可以把手機忘家里,但你不能刪除你的臉,你不能把它忘家里”。人臉識別是一種不需要同意的生物認證工具。
越來越多的公民自由和隱私協(xié)會指出人臉識別的使用存在違反公民自由和隱私的危險,包括ACLU、人權觀察、電子前線基金會以及英國的老大哥觀察。有40家協(xié)會在一封給Amazon的、有關人臉識別系統(tǒng)RekogniTIon的郵件上簽名,要求Amazon不再允許政府使用AWS RekogniTIon。2016年,作為Amazon Web Services云業(yè)務的一部分,Amazon推出了Rekognition。Facebook在加利福尼亞州也面臨著一場根據(jù)生物信息隱私法案提起的針對其使用人臉識別的集體訴訟。在谷歌上搜索“Facebook Face Recognition”,第一頁的前10個結(jié)果中,有6個是關于關閉人臉識別特性,這可以說明人們對這項技術的廣泛質(zhì)疑。
這項技術已經(jīng)發(fā)展了好多年,在標準訓練集上得分很高。不過,現(xiàn)實環(huán)境會帶來一些特殊的挑戰(zhàn)。例如,由于姿勢的原因,一個人臉部的差別可能比不同人臉部的差別還要大。光照、表情、年齡和眼鏡、帽子等遮擋物的差異也會妨礙識別。我們并不是總能獲得主體的正面照,使用其他角度的照片會讓處理過程增加額外的校準步驟。英國大都會警察局最近在節(jié)日期間使用人臉識別的情況就可以說明在現(xiàn)場人群中推廣實驗室實驗還存在困難,超過95%的匹配都是誤報。
可靠起見,人臉識別需要大型的訓練數(shù)據(jù)集和強大的匹配模型。谷歌和Facebook利用人們上傳到其平臺的照片構造了大型的專有數(shù)據(jù)集。也有開源的大型數(shù)據(jù)集可供使用。Wild中的Labeled Faces(LFW)于2007年發(fā)布,其中包含6000人的13000張正面圖像。MS-Celeb-1M是當前最大的名人人臉識別公共數(shù)據(jù)集,其中包含10K名頂級知名人士的10M圖像,而MegaFace的訓練集中包含670K不同個體的4.7M照片和1M的干擾項。
一般來說,人臉識別分為三個步驟:定位、標準化和識別。系統(tǒng)首先會定位圖像中的人臉并探明輪廓。標準化是調(diào)整原始照片,使它接近于正面版本。然后,人臉識別模塊會作用于這些經(jīng)過重定位的人臉。標準化步驟有一種變體,為了模擬不同的姿勢,它會通過生成正面照的多種表示來擴大目標空間。從2D圖像重構出3D模型,生成姿勢的各種變化,然后重新投射到各種2D的變化,就是這種增強技術的一個例子。
從90年代開始,人臉識別就已經(jīng)不再以手工創(chuàng)建的局部特征為基礎,而是轉(zhuǎn)而使用深度學習模型。Facebook的Deepface模型是在LFW數(shù)據(jù)集上訓練的,這是第一個達到人類效率的模型。經(jīng)典的卷積神經(jīng)網(wǎng)絡(CNN)和架構,如AlexNet、VGGNet、GoogleNet和ResNet,被廣泛地用作人臉識別的基線模型。后來,這些模型被用于專門為促進識別和泛化而設計有激活函數(shù)和損失函數(shù)的人臉識別。Face++、MegaFace、FaceNet是其他一些專門設計用來人臉識別的神經(jīng)網(wǎng)絡模型。
當前,人臉識別面臨的挑戰(zhàn)包括實現(xiàn)不同姿勢、不同年齡人臉變體識別的健壯性、使用“照片簡圖(photo-sketches)”代替真正的照片、處理低分辨率照片、識別遮擋、彩妝及欺騙技術。





