今年以來(lái),“人臉識(shí)別”的場(chǎng)景在全國(guó)各地遍地開(kāi)花,出行、安防、金融、消費(fèi)等各大領(lǐng)域紛紛開(kāi)始試水,這些創(chuàng)新應(yīng)用不僅刷新了人們的眼界,還在一定程度上帶來(lái)了便捷和新鮮的體驗(yàn)感。實(shí)際上,人臉識(shí)別在2000年初就有小范圍的落地應(yīng)用,主要用在簽到打卡機(jī)上,但那個(gè)時(shí)候人工智能并不是很火,這個(gè)領(lǐng)域還沒(méi)有進(jìn)入主流的研究視角。直到2012年左右,人臉識(shí)別才從實(shí)驗(yàn)室走到某些行業(yè)中來(lái)。
近期,人工智能受到的關(guān)注度堪比盛夏的高溫,火熱程度一浪高過(guò)一浪。今年3月,人工智能被作為戰(zhàn)略發(fā)展技術(shù)寫(xiě)入政府工作報(bào)告。7月20日,國(guó)務(wù)院向全國(guó)各地方政府及各部委和直屬機(jī)構(gòu)印發(fā)《新一代人工智能發(fā)展規(guī)劃》,提出面向 2030 年我國(guó)新一代人工智能發(fā)展的指導(dǎo)思想、戰(zhàn)略目標(biāo)、重點(diǎn)任務(wù)和保障措施,部署構(gòu)筑我國(guó)人工智能發(fā)展的先發(fā)優(yōu)勢(shì),加快建設(shè)創(chuàng)新型國(guó)家和世界科技強(qiáng)國(guó)。種種現(xiàn)狀表明,人工智能將成為繼互聯(lián)網(wǎng)+之后的下一個(gè)風(fēng)口。
一、人臉識(shí)別模式的不足
目前基于深度學(xué)習(xí)的人臉識(shí)別技術(shù),作為人工智能中重要的一個(gè)組成部分,最近幾年以來(lái)發(fā)展迅速,在公安行業(yè)應(yīng)用不斷深入,其成果頻頻見(jiàn)諸報(bào)端。現(xiàn)階段,人臉識(shí)別已經(jīng)成為公安行業(yè)科技信息化建設(shè)中必不可少的建設(shè)內(nèi)容,從追逃布控、走失人員的尋找、嫌疑人員身份確認(rèn)到以人臉數(shù)據(jù)為核心的大數(shù)據(jù)分析來(lái)協(xié)助案件的偵破,在公安機(jī)關(guān)相關(guān)工作中發(fā)揮了巨大的作用。
但是我們同時(shí)也應(yīng)該看到,目前的人臉識(shí)別模式仍然有不足之處,具體表現(xiàn)有兩點(diǎn):一是現(xiàn)階段的人臉識(shí)別對(duì)場(chǎng)景要求較為苛刻。如果攝像機(jī)的高度、角度、光線等要素?zé)o法滿足要求,則識(shí)別出的人臉質(zhì)量會(huì)比較差,這樣既無(wú)法看清人臉,更無(wú)法通過(guò)人臉進(jìn)行人員身份的判斷,因此想要進(jìn)行人臉識(shí)別布控,必須新建能滿足人臉識(shí)別的前端點(diǎn)位。二是即使能在一些關(guān)鍵部位部署人臉識(shí)別點(diǎn)位,但畢竟數(shù)量不多,目前還無(wú)法達(dá)到進(jìn)行全網(wǎng)布控的效果,公安人員依靠人臉識(shí)別系統(tǒng)進(jìn)行定位和追蹤的效果十分有限。
因此,從深度上來(lái)講,人臉識(shí)別技術(shù)對(duì)環(huán)境的適應(yīng)性、識(shí)別的準(zhǔn)確性仍然有很大的提升空間。從廣度上而言,人臉識(shí)別的目標(biāo)對(duì)象需要更加豐富,從單一的對(duì)人臉進(jìn)行識(shí)別,可以擴(kuò)展到除人臉之外的其它人體部位和信息要素的識(shí)別,比如體型、衣著、朝向等多種要素,這也是本文主要談的人像識(shí)別技術(shù)。
二、人像識(shí)別的關(guān)鍵與流程
在現(xiàn)階段,人像識(shí)別技術(shù)主要是一種狹義上的定義,指的就是以人臉識(shí)別為主的分析和識(shí)別技術(shù)。而從廣義上來(lái)說(shuō),人像識(shí)別技術(shù)是指對(duì)包括人臉在內(nèi)的多種人體部位和信息要素的識(shí)別與分析,能形成人員更為全面的特征數(shù)據(jù)信息,實(shí)現(xiàn)對(duì)人員的定位查找、身份確認(rèn)。
人像識(shí)別中對(duì)人體的識(shí)別是關(guān)鍵,隨著深度學(xué)技術(shù)的突破,實(shí)踐中我們采用深度學(xué)習(xí)技術(shù),使用大量的在不同場(chǎng)景下的同一個(gè)人的不同姿態(tài)、不同穿著的監(jiān)控抓拍照,利用神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)這些圖片數(shù)據(jù)中人員的身體外形特征,從而實(shí)現(xiàn)對(duì)人體的跟蹤監(jiān)測(cè),身體關(guān)鍵部位的定位以及人體特征的提取和比對(duì)。這些人體監(jiān)控圖片經(jīng)過(guò)訓(xùn)練過(guò)后的神經(jīng)網(wǎng)絡(luò),會(huì)映射成為一個(gè)高維的特征向量,這個(gè)向量表示了人體的數(shù)學(xué)特征,對(duì)這個(gè)高維向量進(jìn)行數(shù)據(jù)計(jì)算比對(duì),就能達(dá)到對(duì)不同場(chǎng)景下同一個(gè)人的人體識(shí)別。通過(guò)對(duì)人體的識(shí)別,再結(jié)合對(duì)人臉的識(shí)別和特征比對(duì),從而形成特有的人像識(shí)別技術(shù)。
人像識(shí)別的具體流程分為包括以下幾個(gè)步驟:
視頻采集:人像系統(tǒng)通過(guò)接入實(shí)時(shí)視頻流,獲取人像數(shù)據(jù)源?紤]到人像檢測(cè)相對(duì)耗時(shí),所以輸入的視頻流可以設(shè)置成隔幾幀進(jìn)行一次檢測(cè),這樣就可以使得整個(gè)系統(tǒng)數(shù)據(jù)采集實(shí)時(shí)性更好。
人像檢測(cè):采用基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法,對(duì)場(chǎng)景內(nèi)的人臉和人體同時(shí)進(jìn)行檢測(cè)。系統(tǒng)中使用的檢測(cè)器是基于通用的Faster R-CNN方法,使用類(lèi)ZF的網(wǎng)絡(luò)結(jié)構(gòu)在ImageNet上進(jìn)行預(yù)訓(xùn)練,并使用實(shí)際監(jiān)控場(chǎng)景視頻數(shù)據(jù)進(jìn)行微調(diào)(fine-tune),得到系統(tǒng)中使用的人像檢測(cè)器模型。
人像跟蹤:基于檢測(cè)器得到的檢測(cè)結(jié)果,在檢測(cè)幀之后,對(duì)檢測(cè)到的目標(biāo)框使用跟蹤性能較好的KCF方法進(jìn)行跟蹤。同時(shí),采用深度神經(jīng)網(wǎng)絡(luò)提取表觀特征,采用一個(gè)多維的向量來(lái)表示,并對(duì)圖像質(zhì)量進(jìn)行判斷,對(duì)同一個(gè)人員輸出一張質(zhì)量最好的圖像。
特征提取:系統(tǒng)通過(guò)對(duì)檢測(cè)到的人員圖片進(jìn)行分析,對(duì)檢測(cè)到的人臉和人體分別進(jìn)行結(jié)構(gòu)化分析和特征提取。
將人臉與人體的結(jié)構(gòu)化分析和特征信息綜合歸納,形成基本特征(性別、年齡段、種族等)、頭部特征(帽子、發(fā)型、眼鏡、口罩等)、體態(tài)特征(朝向、速度等)、衣著特征(上衣及褲子的類(lèi)型、顏色等)、攜帶物特征(是否有包、是否抱小孩、是否打傘等)。
數(shù)據(jù)關(guān)聯(lián):系統(tǒng)將識(shí)別到的人員的人臉與人體進(jìn)行圖像關(guān)聯(lián),形成包含人臉與人體的特征數(shù)據(jù)及其關(guān)聯(lián)關(guān)系的人像數(shù)據(jù)庫(kù)。
采用人像識(shí)別技術(shù)形成人像數(shù)據(jù)庫(kù)后,對(duì)人員的身份識(shí)別不僅可以采用人臉特征來(lái)完成,而且可以依托更為豐富的人體特征來(lái)進(jìn)行識(shí)別,擴(kuò)大識(shí)別范圍。
三、人像識(shí)別的應(yīng)用
人像識(shí)別之圖像語(yǔ)義檢索應(yīng)用
人像識(shí)別技術(shù)具備非常豐富的人像結(jié)構(gòu)化數(shù)據(jù),系統(tǒng)通過(guò)人像識(shí)別技術(shù)對(duì)抓拍的人臉、人體圖片進(jìn)行特征提取分析和識(shí)別處理,獲取的人員面部特征及體態(tài)特征信息,經(jīng)過(guò)關(guān)聯(lián)處理后形成海量的人像資源數(shù)據(jù)。公安人員在對(duì)具有某些特征的嫌疑人員進(jìn)行查找的過(guò)程中,可直接使用人像識(shí)別技術(shù)進(jìn)行語(yǔ)義檢索,例如輸入“男人、中年、戴眼鏡、背包、短袖”屬性,可在系統(tǒng)的抓拍人像中迅速縮小范圍,定位到目標(biāo)人員,達(dá)到視頻偵查業(yè)務(wù)中快速找人的目的。
人像識(shí)別之行人重識(shí)別應(yīng)用
通過(guò)普通監(jiān)控?cái)z像頭,實(shí)現(xiàn)對(duì)目標(biāo)人員的追蹤與識(shí)別,這就是人像識(shí)別技術(shù)中的行人重識(shí)別應(yīng)用模式。公安人員即使只有該人員的視頻監(jiān)控截圖,從截圖中獲取不到清晰的人臉信息,但只要有完整的人體圖像,仍然可以通過(guò)人像識(shí)別技術(shù)在人像數(shù)據(jù)庫(kù)中對(duì)該人體圖片進(jìn)行檢索,匹配到超過(guò)設(shè)定閾值,相似度最高的人員。通過(guò)這種方式,可以更加全面的分析出目標(biāo)人員更多的行動(dòng)軌跡、活動(dòng)范圍等重要信息。
人像識(shí)別之人像關(guān)聯(lián)應(yīng)用
上文提到,通過(guò)人像識(shí)別技術(shù),利用攝像頭捕獲人臉和人體(可以是部分人體)圖像,并建立了人像數(shù)據(jù)庫(kù)。
在人像關(guān)聯(lián)應(yīng)用中,可利用人像數(shù)據(jù)庫(kù)中采集的人臉圖片特征進(jìn)行1:N檢索,從后臺(tái)人臉布控庫(kù)中匹配超過(guò)閾值,且相似度最高的人臉,根據(jù)該人臉的身份信息,就確認(rèn)該人員的身份,并建立“人體采集數(shù)據(jù)—人臉采集數(shù)據(jù)—后臺(tái)布控人臉數(shù)據(jù)”的關(guān)聯(lián)關(guān)系,形成人像關(guān)聯(lián)庫(kù)。
當(dāng)該目標(biāo)人員再次被監(jiān)控?cái)z像頭捕捉到,攝像頭即使沒(méi)有抓拍到清晰的人臉,但仍然可以將抓拍到的人體圖像通過(guò)系統(tǒng)進(jìn)行特征提取后比對(duì),在人像特征數(shù)據(jù)庫(kù)中進(jìn)行1:N檢索,檢索到匹配的人體后,進(jìn)而關(guān)聯(lián)到后臺(tái)人臉數(shù)據(jù),從而確認(rèn)該人員的身份信息。
結(jié)語(yǔ)
人像識(shí)別技術(shù)作為人工智能“AI+安防”中的典型應(yīng)用模式,彌補(bǔ)了人臉識(shí)別系統(tǒng)中只能對(duì)人臉進(jìn)行分析的局限性。在現(xiàn)階段,人像識(shí)別的技術(shù)還處于研究和探索階段,在國(guó)家人工智能發(fā)展規(guī)劃政策的強(qiáng)力推動(dòng)下,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,人臉和人體的識(shí)別信息會(huì)更加豐富,結(jié)果會(huì)更加準(zhǔn)確,人像識(shí)別技術(shù)會(huì)越來(lái)越成熟和完善。再結(jié)合車(chē)輛信息、手機(jī)WIFI信息,進(jìn)行多維的數(shù)據(jù)關(guān)聯(lián),建立以人像為核心的綜合人像信息數(shù)據(jù)庫(kù),利用大數(shù)據(jù)分析技術(shù),對(duì)這些關(guān)聯(lián)數(shù)據(jù)進(jìn)行碰撞分析,挖掘其內(nèi)在的線索和規(guī)律。在社會(huì)的各個(gè)行業(yè),特別是公安部門(mén),用于布控追逃、嫌疑人的追蹤、走失人員的查找等,一定會(huì)充分發(fā)揮其實(shí)戰(zhàn)價(jià)值和意義。