2016年和2017年,國家先后出臺(tái)了《互聯(lián)網(wǎng)+人工智能三年實(shí)施行動(dòng)方案》和《新一代人工智能發(fā)展規(guī)劃》,將人工智能提升到了國家戰(zhàn)略層面,同時(shí)要加快壯大人工智能在教育、醫(yī)療、智慧城市、智能家居等多方面的應(yīng)用,人臉識(shí)別也作為應(yīng)用方向之一,成為人工智能領(lǐng)域的重點(diǎn)研發(fā)項(xiàng)目。
安防已經(jīng)成為人工智能落地場(chǎng)景中的重要賽道,其涉及的智能視頻分析、人臉識(shí)別等關(guān)鍵技術(shù)也在研究領(lǐng)域受到了極大的關(guān)注。那么安防領(lǐng)域中涉及的人臉識(shí)別有何痛點(diǎn)?人工智能+安防的未來又有哪些新的趨勢(shì)?
10月29日,清華大學(xué)媒體大數(shù)據(jù)認(rèn)知計(jì)算研究中心主任王生進(jìn)教授在2017年第十六屆中國國際公共安全博覽會(huì)(CPSE安博會(huì))政府管理論壇上發(fā)表了題為《人像態(tài)勢(shì)識(shí)別及其在智能視頻監(jiān)控中的應(yīng)用》的演講,他指出,目前我國視頻監(jiān)控建設(shè)卓有成效,攝像頭的數(shù)量驚人,達(dá)到了2000多萬個(gè)。如此大量級(jí)的數(shù)據(jù)只依靠人工監(jiān)控已經(jīng)無法實(shí)現(xiàn)大規(guī)模視頻監(jiān)控,急需人工智能以及智能分析技術(shù)有效的技術(shù)支撐。
王生進(jìn)教授從三個(gè)方面闡述了人臉識(shí)別在安防中的應(yīng)用:1、新一代人工智能發(fā)展與智能安防;2、人臉識(shí)別技術(shù)與應(yīng)用系統(tǒng);3、以人為中心的安防理念與人像態(tài)視識(shí)別。
一、新一代人工智能發(fā)展與智能安防
當(dāng)前,世界范圍內(nèi)公共安全面臨嚴(yán)峻情勢(shì),是國際上關(guān)注的重大課題,信息內(nèi)容與情報(bào)成為掌控局勢(shì)的關(guān)鍵要素。面向大數(shù)據(jù)背景下國家公共安全保障是重大的國家的需求。聚焦公共安全、平安城市、視頻監(jiān)控、網(wǎng)絡(luò)安全的需求,以安防視頻大數(shù)據(jù),及網(wǎng)絡(luò)空間各種視頻、圖像、語音、網(wǎng)絡(luò)信息為大數(shù)據(jù)基礎(chǔ),創(chuàng)新人工智能和機(jī)器學(xué)習(xí)理論,構(gòu)建公共安全大數(shù)據(jù)應(yīng)用技術(shù)創(chuàng)新平臺(tái)是我們工作的重點(diǎn)。
我們現(xiàn)在面向的空間主要有兩個(gè)。
第一面向物理空間安全:全國平安城市建設(shè)視頻監(jiān)控前端數(shù)量已超過2000萬。目標(biāo)感知能力不足,大數(shù)據(jù)給公共安全事件即時(shí)感知、精確分析、快速搜索帶來巨大困難,急需人工智能技術(shù)支撐。
第二面向網(wǎng)絡(luò)空間安全:網(wǎng)絡(luò)空間富媒體通信的引入,帶來新型媒體信息管控難題,國家急需大數(shù)據(jù)環(huán)境下富媒體內(nèi)容感知、網(wǎng)絡(luò)信息安全、網(wǎng)絡(luò)多媒體內(nèi)容監(jiān)測(cè)的支撐技術(shù)。
十二五期間,全國600大中城市視頻采集系統(tǒng)建設(shè)已初具規(guī)模,監(jiān)控系統(tǒng)26.8萬余個(gè)(2009),安裝攝像頭2000萬余個(gè)(2013)。按每個(gè)攝像頭每天約7.2GB (0.3G(CIF)*24)的數(shù)據(jù)量,北京市攝像頭40余萬個(gè)(2011),每天產(chǎn)生的數(shù)據(jù)量為 2800TB,數(shù)據(jù)量巨大。
在這樣大量的數(shù)據(jù)下,依賴人工監(jiān)控,智能化程度低,無法實(shí)現(xiàn)大規(guī)模視頻監(jiān)控環(huán)境下的事前感知、事中聯(lián)動(dòng)、事后有效處理及智能檢索。急需人工智能以及智能分析的技術(shù),在視頻監(jiān)控里能夠提供有效的技術(shù)的支撐。
2017年7月8日,國務(wù)院發(fā)布新一代人工智能發(fā)展規(guī)劃(國發(fā)〔2017〕35號(hào))。人工智能成為國際競(jìng)爭(zhēng)的新焦點(diǎn),是引領(lǐng)未來的戰(zhàn)略性技術(shù);人工智能成為經(jīng)濟(jì)發(fā)展的新引擎,作為新一輪產(chǎn)業(yè)變革的核心驅(qū)動(dòng)力;人工智能帶來社會(huì)建設(shè)的新機(jī)遇,將深刻改變?nèi)祟惿鐣?huì)生活、改變世界。搶抓人工智能發(fā)展的重大戰(zhàn)略機(jī)遇,構(gòu)筑我國人工智能發(fā)展的先發(fā)優(yōu)勢(shì),加快建設(shè)創(chuàng)新型國家和世界科技強(qiáng)國。
根據(jù)這個(gè)核心,《規(guī)劃》里提出利用人工智能提升公共安全保障能力的規(guī)劃和要求。
第一、促進(jìn)人工智能在公共安全領(lǐng)域的深度應(yīng)用,推動(dòng)構(gòu)建公共安全智能化監(jiān)測(cè)預(yù)警與控制體系。
第二、圍繞社會(huì)綜合治理、新型犯罪偵查、反恐等迫切需求,研發(fā)集成多種探測(cè)傳感技術(shù)、視頻圖像信息分析識(shí)別技術(shù)、生物特征識(shí)別技術(shù)的智能安防與警用產(chǎn)品,建立智能化監(jiān)測(cè)平臺(tái)。
第三、加強(qiáng)對(duì)重點(diǎn)公共區(qū)域安防設(shè)備的智能化改造升級(jí),支持有條件的社區(qū)或城市開展基于人工智能的公共安防區(qū)域示范。
在智能視頻分析關(guān)鍵技術(shù)方面,我簡單列了相關(guān)的關(guān)鍵技術(shù):
1、侵入/越界檢測(cè);2、遺留物體事件檢測(cè);3、拿走物體事件檢測(cè);4、徘徊檢測(cè);5、行人/車輛檢測(cè)、跟蹤;6、人臉(人像)/行人/車牌識(shí)別;7、人群密度監(jiān)測(cè);8、異常行為(奔跑打架斗毆)檢測(cè);9、視頻質(zhì)量診斷;10、視頻濃縮與摘要;11、視頻內(nèi)容快速檢索;12、圖像增強(qiáng)與復(fù)原技術(shù)。
人臉識(shí)別技術(shù)應(yīng)用方面,根據(jù)實(shí)際應(yīng)用場(chǎng)景,人臉識(shí)別可以分為如下3類:
第一、有配合人臉識(shí)別。分認(rèn)證和查詢,通常應(yīng)用在證件照人臉,聲明我是A,然后將A的模板人臉圖像和現(xiàn)場(chǎng)采集的A的人臉圖像進(jìn)行比對(duì),給出Yes or No,或查詢大庫。通常要求配合。
第二、半配合人臉識(shí)別。也分認(rèn)證和查詢。通常應(yīng)用在受限的通道、卡口,進(jìn)行黑/白名單比對(duì)。該類應(yīng)用通常光照穩(wěn)定,不要求配合。
第三、非配合人臉識(shí)別。查詢?yōu)橹,通常?yīng)用在視頻監(jiān)控的動(dòng)態(tài)布控場(chǎng)合,進(jìn)行黑名單查詢。該類應(yīng)用光照復(fù)雜,姿態(tài)不確定,難度大。
清華人臉識(shí)別技術(shù)——人證合一驗(yàn)證通關(guān)應(yīng)用:2005年,由公安部出入境管理局主持集成清華大學(xué)人臉技術(shù),世界上首次在我國出入境旅客最多的深圳羅湖口岸開通“旅客自助查驗(yàn)通道” ,日均出入境人數(shù)在數(shù)十萬以上。已推廣到深圳、珠海兩個(gè)地區(qū)的邊檢口岸共已開通了近400條自助通道,近300萬旅客,驗(yàn)放旅客超過數(shù)億人次,通過率98%,成為世界人臉識(shí)別技術(shù)大規(guī)模成功應(yīng)用的范例。
二、人臉識(shí)別技術(shù)與應(yīng)用系統(tǒng)
人臉識(shí)別技術(shù)通過采用攝像機(jī)或攝像頭,采集含有人臉的圖像或視頻流,并自動(dòng)在圖像中檢測(cè)和跟蹤人臉,進(jìn)而對(duì)檢測(cè)到的人臉進(jìn)行臉部的一系列相關(guān)處理技術(shù),通常包括:人臉檢測(cè)、人臉跟蹤、人臉五官定位、人臉歸一化、特征提取、分類器訓(xùn)練和比對(duì)匹配,以達(dá)到識(shí)別不同人身份的目的。被廣泛地應(yīng)用在安全、認(rèn)證等身份鑒別領(lǐng)域,因而被譽(yù)為”21世紀(jì)十大影響人類生活“的革命性技術(shù)。
人臉識(shí)別從應(yīng)用上一般分為人臉檢測(cè),人臉五官定位,1:1人臉識(shí)別,1:N人臉識(shí)別,M:N動(dòng)態(tài)布控。人臉檢測(cè)與五官定位應(yīng)用方向:客流量統(tǒng)計(jì),視頻檢索等。智能貼圖,智能美妝美顏,變臉特效等:
1:1人臉識(shí)別應(yīng)用方向是指身份證人臉認(rèn)證系統(tǒng),社保人臉識(shí)別。
1:N人臉識(shí)別應(yīng)用方向是指身份證照片查重,護(hù)照照片查重。比如你現(xiàn)在要做一個(gè)護(hù)照,你是張三,公安部門會(huì)到人口庫里面查一下,看你會(huì)不會(huì)是頂替,也就是一人多證。
M:N人臉識(shí)別應(yīng)用方向是指動(dòng)態(tài)監(jiān)控,黑名單監(jiān)控,VIP客戶管理系統(tǒng),校園人臉識(shí)別系統(tǒng),智能樓宇。
人臉識(shí)別技術(shù),近兩年發(fā)展非常迅速;跈C(jī)器學(xué)習(xí)的人臉識(shí)別方法方面,人臉識(shí)別方法總體上可分為三大類:
一是基于統(tǒng)計(jì)的識(shí)別方法,主要包括特征臉(Eigenface)方法、隱馬爾科夫模型方法、子空間法等;二是基于網(wǎng)絡(luò)連接機(jī)制的識(shí)別方法,包括人工神經(jīng)網(wǎng)絡(luò)(ANN)方法和彈性圖匹配方法等;三是幾何特征方法和三維模型等一些其他的綜合方法。
1.人臉識(shí)別核心課題
人臉識(shí)別的過程:令x 為一個(gè)待識(shí)別的人臉輸入,F(xiàn)(x)為一個(gè)分類器函數(shù),y 是關(guān)于x 的類別標(biāo)簽輸出。人臉識(shí)別的關(guān)鍵,是獲得高性能的F函數(shù)。傳統(tǒng)的人臉識(shí)別的方法(Deep Learning以前): F分類器函數(shù)的構(gòu)建,主要是分步處理、人工設(shè)計(jì)的。
基于統(tǒng)計(jì)學(xué)習(xí)的人臉識(shí)別方法得到了廣泛的應(yīng)用。人臉識(shí)別當(dāng)前遇到的主要困難包括:
人臉面部結(jié)構(gòu)的相似性;人臉的姿態(tài)變化;人臉的表情變化;復(fù)雜環(huán)境的光照變化;人臉的飾物遮擋;人臉的年齡變化
以上問題給人臉識(shí)別帶來了相當(dāng)大的挑戰(zhàn)。隨著深度學(xué)習(xí)的發(fā)展,我們遇到的困難得到了解決。
2.人工智能新浪潮的關(guān)鍵技術(shù)——深度學(xué)習(xí)
人工神經(jīng)網(wǎng)絡(luò)是一種端到端的機(jī)器學(xué)習(xí)方法(全步驟一次性學(xué)習(xí))。端到端的學(xué)習(xí)方法一出現(xiàn)給人工智能帶來了巨大的推動(dòng),應(yīng)用在AlphaGo,圖像識(shí)別,語音識(shí)別,無人駕駛,VR/AR,智能交通,智能視頻,智慧醫(yī)療,智能制造。
3.人臉識(shí)別關(guān)鍵技術(shù)
1)人臉檢測(cè):判斷輸入圖像中是否存在人臉;如果存在人臉,返回人臉?biāo)诘奈恢谩?/p>
2)關(guān)鍵點(diǎn)定位:確定人臉中眼角、鼻尖和嘴角等關(guān)鍵點(diǎn)所在的位置,為人臉的對(duì)齊和歸一化做準(zhǔn)備。
3)人臉歸一化:根據(jù)關(guān)鍵點(diǎn)的位置,采用相似變換,將人臉對(duì)齊到標(biāo)準(zhǔn)臉關(guān)鍵點(diǎn),并裁剪成統(tǒng)一大小。
4)特征提。豪煤A繑(shù)據(jù),訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò);將人臉圖像表示成具有高層語義信息的特征向量。
5)特征比對(duì):主要是利用Metric Learning等技術(shù),進(jìn)一步提升識(shí)別準(zhǔn)確率。
4.人臉檢測(cè)技術(shù)
(1)基于A CNN Cascade for FaceDetection框架。一共6個(gè)CNN,3個(gè)detection-net用于判斷輸入的區(qū)域是否是人;3個(gè)calibration-net對(duì)輸入的人臉框進(jìn)行校正,得到更加準(zhǔn)確的人臉框。檢測(cè)過程中采用NMS消除高度重疊的窗口。
(2)人臉識(shí)別網(wǎng)絡(luò)。針對(duì)不同人臉識(shí)別場(chǎng)景,設(shè)計(jì)了多種網(wǎng)絡(luò)架構(gòu),以適應(yīng)不同場(chǎng)景(速度、精度)的要求。圖是我設(shè)計(jì)的一個(gè)網(wǎng)絡(luò),左邊的網(wǎng)絡(luò)具有速度快的特點(diǎn),僅需要5毫秒的CPU時(shí)間,在LFW上的識(shí)別準(zhǔn)確率為97.28%,主要用于對(duì)實(shí)時(shí)性要求高的場(chǎng)景。右邊的網(wǎng)絡(luò),RES-FaceNet,一共包含26個(gè)卷積層,5個(gè)max-pooling和1個(gè)全連接,單個(gè)model在LFW上的識(shí)別準(zhǔn)確率可達(dá)99.22%。
三、以人為中心的安防理念與人像態(tài)視識(shí)別
基于以人為中心的安防理念,提出人像態(tài)視識(shí)別新概念。安防的重點(diǎn)是人,特別需要關(guān)注和獲取重點(diǎn)人群的全面信息。例如以下的相關(guān)信息:關(guān)注人物出現(xiàn)在公共場(chǎng)所和交通卡口;他的行為和舉止是否異常;攜帶包裹進(jìn)入公共場(chǎng)所,走出后箱包是否消失;其面部表情和神態(tài)如何;近期是否有過敏感接觸、過激言語等。
人像態(tài)視識(shí)別
人像態(tài)視識(shí)別,是我們構(gòu)建的深度人像識(shí)別的一個(gè)新概念,即對(duì)于人的像態(tài)、形態(tài)、神態(tài)、意態(tài)。
—像態(tài)包括人臉和行人表觀圖像;像態(tài),感知兩個(gè)維度: 1、對(duì)感知對(duì)象的物理特征進(jìn)行精準(zhǔn)認(rèn)知,以表達(dá)如顏色、尺寸等;2、對(duì)這些特征組合的表象進(jìn)行屬性描述,以表達(dá)是什么,如車牌、人臉、行人。像態(tài)包含表觀:人臉、指紋、掌紋、虹膜、指靜脈、人群聚集事件等。
形態(tài)包括靜止和序慣圖像。形態(tài),感知兩個(gè)維度:
1、對(duì)感知對(duì)象的靜止肢體特征進(jìn)行認(rèn)知,以表達(dá)如動(dòng)作、姿態(tài)等;
2、對(duì)感知對(duì)象的肢體變化特征進(jìn)行描述,以表達(dá)做什么,如步態(tài)、奔跑、逆行。形態(tài)包含多種人體肢體特征:姿態(tài)、行為、動(dòng)作、步態(tài)、軌跡等。視頻監(jiān)控行人識(shí)別系統(tǒng),是在跨視域視頻監(jiān)控網(wǎng)絡(luò)中,依據(jù)行人外觀和步態(tài)特征,識(shí)別查找追蹤在不同攝像頭下的特定行人。
神態(tài)包括主動(dòng)和被動(dòng)下的人臉圖像。神態(tài),感知主動(dòng)和被動(dòng)兩個(gè)維度:
1、對(duì)感知對(duì)象的面部表情特征進(jìn)行認(rèn)知,以表達(dá)如喜怒哀樂等;
2、對(duì)感知對(duì)象的面部神色特征進(jìn)行描述,以表達(dá)其內(nèi)心的波動(dòng)、思想的意識(shí)、精神的狀態(tài),通常不為人的意志所控制。神態(tài)主要用于表達(dá)人的內(nèi)心狀態(tài):神態(tài)自若、神色慌張、精神恍惚等。
意態(tài)包括顯性信息和隱性信息。按照這個(gè)范疇定義,構(gòu)成人像態(tài)勢(shì)識(shí)別新概念,智能安防,人是其中核心關(guān)鍵的要素。意態(tài)與隱形信息相關(guān)聯(lián),主要體現(xiàn)在信息的邏輯關(guān)系的關(guān)聯(lián)上,具有顯性和隱性兩個(gè)維度:
1、對(duì)感知對(duì)象行為的企圖、目標(biāo)、后果的顯性特征進(jìn)行認(rèn)知;
2、對(duì)感知對(duì)象行為的企圖、目標(biāo)、后果的隱性特征進(jìn)行認(rèn)知,以表達(dá)其行為與其他事件的關(guān)聯(lián)、影響、及潛在的可能后果。意態(tài)的顯性特征認(rèn)知較為容易實(shí)現(xiàn),意態(tài)的隱性特征認(rèn)知難度較大,但實(shí)際的事件預(yù)測(cè)十分需要。例如,同樣是購買一把菜刀,如果是一個(gè)主婦,可能是用于家庭的廚房餐飲;但若是有前科的人,則需要預(yù)警;—又如,一個(gè)人長時(shí)間在某個(gè)地方徘徊,像態(tài)是徘徊,但意態(tài)可能預(yù)示可能的事件。
大數(shù)據(jù)時(shí)代,如何處理從各個(gè)數(shù)據(jù)源收集來的信息,如何對(duì)不同地點(diǎn)、不同媒體、不同時(shí)間、以及不同清晰度、不同粒度的信息進(jìn)行綜合利用,包括對(duì)信息的真?zhèn)芜M(jìn)行鑒定;都是從未完成過的挑戰(zhàn)。顯性信息關(guān)聯(lián),主要體現(xiàn)在目標(biāo)表觀信息的關(guān)聯(lián)上,如目標(biāo)類型,目標(biāo)屬性,目標(biāo)狀態(tài),目標(biāo)時(shí)空點(diǎn);隱性信息關(guān)聯(lián)。主要體現(xiàn)在邏輯關(guān)系信息的關(guān)聯(lián)上—“蝴蝶效應(yīng)”,亞洲蝴蝶拍拍翅膀,將使美洲幾個(gè)月后出現(xiàn)比狂風(fēng)還厲害的龍卷風(fēng)!
人像態(tài)視識(shí)別,全面構(gòu)建對(duì)人的像態(tài)、形態(tài)、神態(tài)、意態(tài)的深度識(shí)別。通過人像態(tài)視識(shí)別,實(shí)現(xiàn)對(duì)目標(biāo)人的整體信息分析、完善的狀態(tài)描述。1、2態(tài),側(cè)重“格物”,本意即為考察人這個(gè)事物; 3、4態(tài),偏向“致知”,進(jìn)而達(dá)到完善的識(shí)別和理解; 人像態(tài)視識(shí)別的目標(biāo)就是“格物致知”。綜上,通過人像態(tài)視識(shí)別,實(shí)現(xiàn)對(duì)目標(biāo)人的整體信息分析、完善的狀態(tài)描述。人臉識(shí)別系統(tǒng)包含人臉識(shí)別、年齡估計(jì)、性別識(shí)別等,新一代的具有智能的安全監(jiān)控技術(shù),可實(shí)現(xiàn)對(duì)人臉的檢測(cè)、識(shí)別和分類;人像態(tài)視識(shí)別,全面構(gòu)建對(duì)人的像態(tài)、形態(tài)、神態(tài)、意態(tài)的深度識(shí)別。通過人像態(tài)視識(shí)別,實(shí)現(xiàn)對(duì)目標(biāo)人的整體信息分析、完善的狀態(tài)描述。
將人像態(tài)視識(shí)別與智能視頻分析有機(jī)結(jié)合,運(yùn)用于安防領(lǐng)域,無疑將提高公安安防工作的效率,為平安城市建設(shè)和公共安全保障提供精準(zhǔn)和有效的信息技術(shù)手段,大數(shù)據(jù)背景下國家社會(huì)安全保障重大需求。