
7 月,CopyCat 病毒使 1400 萬(wàn)部安卓手機(jī)遭殃;
6 月,Petya 病毒感染全球 60 多個(gè)國(guó)家;
5 月,WannaCry 病毒來(lái)勢(shì)洶洶,席卷全球,至少 150 個(gè)國(guó)家受到攻擊。
然而,在安全廠商瑞星根據(jù)病毒感染人數(shù)、變種數(shù)量和代表性評(píng)選的「2017 年上半年病毒 Top10」中,令人膽顫心驚的 WannaCry 病毒卻只能排列第九。
瑞星發(fā)布的《2017 年上半年中國(guó)網(wǎng)絡(luò)安全報(bào)告》顯示,2017 年 1-6 月,瑞星「云安全」系統(tǒng)共截獲病毒樣本總量 3,132 萬(wàn)個(gè),病毒感染次數(shù) 23.4 億次,病毒總體數(shù)量比 2016 年同期上漲 35.47%。
逐漸上漲的病毒數(shù)量讓網(wǎng)絡(luò)安全受到了前所未有的關(guān)注,以人工智能驅(qū)動(dòng)的網(wǎng)絡(luò)安全公司也受到了資本的青睞。單就 6 月份,就至少有 7 家將人工智能用于網(wǎng)絡(luò)安全的公司獲得新一輪融資,而融資總額接近 5 億美元。
網(wǎng)絡(luò)安全面臨嚴(yán)峻考驗(yàn)
「2016 年全球互聯(lián)網(wǎng)用戶(hù)達(dá)到 35 億人,約占世界總?cè)丝诘囊话?。?2020 年,接入互聯(lián)網(wǎng)的終端設(shè)備預(yù)計(jì)將達(dá)到 120 億臺(tái)。」這是來(lái)自國(guó)際電信聯(lián)盟于 2017 年 7 月發(fā)布的《全球網(wǎng)絡(luò)安全指數(shù)》中的數(shù)據(jù)。
而隨著智能設(shè)備的廣泛應(yīng)用,大規(guī)模普及的物聯(lián)網(wǎng)必將為攻擊者提供大量新機(jī)會(huì),工作與生活的界限愈加模糊,一臺(tái)聯(lián)網(wǎng)設(shè)備,只要被攻陷,從銀行等財(cái)務(wù)信息到健康等個(gè)人信息,則可能全部泄露。而在互聯(lián)時(shí)代,只要攻克一臺(tái)設(shè)備,其他設(shè)備就可能瞬間被瓦解。
這樣的事情已有先例。2016 年 10 月,一款名為 Mirai 的惡意軟件侵襲了大量存在漏洞的智能攝像頭、智能網(wǎng)關(guān)、智能家電等物聯(lián)網(wǎng)設(shè)備,被感染后的它們瞬間變成了網(wǎng)絡(luò)中的「肉雞」設(shè)備。在工控領(lǐng)域,2010 年的 Stuxnet 蠕蟲(chóng)病毒能夠針對(duì)西門(mén)子的監(jiān)控與數(shù)據(jù)采集(SCADA)系統(tǒng)進(jìn)行攻擊,并通過(guò) U 盤(pán)和局域網(wǎng)進(jìn)行傳播。
萬(wàn)物互聯(lián),內(nèi)網(wǎng)和外網(wǎng)的邊界逐漸模糊,網(wǎng)絡(luò)泛化則成為大趨勢(shì),比如特斯拉的汽車(chē)在各種場(chǎng)合都可以接入 wifi,還可以接入 3G/4G 網(wǎng)絡(luò),而在未來(lái)的交通中,無(wú)人駕駛車(chē)還將與交通燈、交通臺(tái),甚至是和其他車(chē)互通互聯(lián)——這意味著更多的潛在攻擊點(diǎn)。
「一旦入網(wǎng),有很多傳統(tǒng)的攻擊手段就能像攻擊電腦一樣攻擊無(wú)人駕駛車(chē),WannaCry 病毒同樣可以入侵車(chē),這造成的問(wèn)題將會(huì)更大。」德國(guó)弗勞恩霍夫應(yīng)用集成信息安全研究所認(rèn)知信息安全研究組組長(zhǎng)肖煌在接受機(jī)器之能的采訪時(shí)說(shuō)。
這表明,無(wú)論是現(xiàn)在,還是將來(lái),網(wǎng)絡(luò)安全將面臨著嚴(yán)峻的考驗(yàn)。隨著人工智能被應(yīng)用于各個(gè)垂直領(lǐng)域,網(wǎng)絡(luò)安全面臨的新的挑戰(zhàn),也為人工智能的大展身手帶來(lái)了重要的契機(jī)。
在這個(gè)新興領(lǐng)域,巨頭已經(jīng)出現(xiàn)。用人工智能預(yù)測(cè)網(wǎng)絡(luò)攻擊的 Cylance 公司是估值 10 億美元以上的獨(dú)角獸,其人工智能反病毒軟件「Cylance PROTECT」可以預(yù)測(cè)威脅的發(fā)生。該公司曾在去年演示了一項(xiàng)技術(shù),在沒(méi)有網(wǎng)絡(luò)連接的情況下,僅需 60 MB 內(nèi)存和 1% 的 CPU 就能保護(hù)計(jì)算機(jī)免受攻擊。
人工智能于網(wǎng)絡(luò)安全:異常檢測(cè)和提升效率
在網(wǎng)絡(luò)安全領(lǐng)域,對(duì)威脅的識(shí)別,并非一蹴而就,而是漸進(jìn)發(fā)展的過(guò)程。亞信網(wǎng)絡(luò)安全產(chǎn)業(yè)技術(shù)研究院副院長(zhǎng)童寧在 7 月初舉辦的 C3 安全峰會(huì)上介紹,安全廠商起初通過(guò)黑白名單技術(shù),將目標(biāo)進(jìn)行好/壞定性,用這樣的一維特征來(lái)識(shí)別威脅。隨后是匹配字符串這樣的二維特征,如果請(qǐng)求里包含某一類(lèi)型的數(shù)據(jù),就會(huì)被認(rèn)定為非法。在這之后是多維特征,要辨別一個(gè)程序是好是壞,先讓它運(yùn)行,再監(jiān)督它的運(yùn)行過(guò)程,將運(yùn)行過(guò)程中的信息形成多維特征,用于判斷。但多維特征技術(shù)的致命缺點(diǎn)就是開(kāi)銷(xiāo)太大,效率低下,因此無(wú)法達(dá)到客戶(hù)要求。
在 2000 年以后,隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,有大量設(shè)備產(chǎn)生各式各樣的日志,因此在日志管理和分析方面,有了長(zhǎng)足的發(fā)展。而包括關(guān)聯(lián)分析等機(jī)器學(xué)習(xí)算法也被大量使用。
在機(jī)器學(xué)習(xí)中,童寧表示,監(jiān)督學(xué)習(xí)則是一個(gè)高效的多維度特征發(fā)現(xiàn)方法,適用于惡意程序、勒索病毒以及垃圾郵件的防治。但監(jiān)督學(xué)習(xí)也面臨著挑戰(zhàn):一,模型的新鮮度,因?yàn)橥{每天都在變化,而監(jiān)督學(xué)習(xí)并不是每天都在學(xué)習(xí),如果不每天學(xué)習(xí),最新的威脅就識(shí)別不出來(lái)。二,模型的準(zhǔn)確率,學(xué)習(xí)是一回事,但真正使用時(shí)的精度又是另一回事。三,模型的召回率,也就是說(shuō)漏掉了多少威脅,有多少威脅沒(méi)有抓住。
因此,監(jiān)督學(xué)習(xí)并不是萬(wàn)能的,比如反欺詐、態(tài)勢(shì)感知、用戶(hù)行為分析則更適合無(wú)監(jiān)督學(xué)習(xí)。然而,無(wú)監(jiān)督學(xué)習(xí)也面臨著另外的挑戰(zhàn),因?yàn)闊o(wú)監(jiān)督學(xué)習(xí)一般是在客戶(hù)的網(wǎng)絡(luò)環(huán)境中進(jìn)行,因而很有可能面臨投毒攻擊。
「機(jī)器學(xué)習(xí)技術(shù)的優(yōu)勢(shì)是它的多維識(shí)別能力,然而機(jī)器學(xué)習(xí)技術(shù)再?gòu)?qiáng)大也需要與其他手段綜合起來(lái)利用,效果才更好?!雇瘜幷f(shuō)。
肖煌同樣指出,將機(jī)器學(xué)習(xí)用于網(wǎng)絡(luò)安全,在很多場(chǎng)景,預(yù)測(cè)精度并不能達(dá)到他們要求的 0.000001 的誤報(bào)標(biāo)準(zhǔn)。從這個(gè)角度來(lái)說(shuō),人工智能也只是輔助手段,還需要與傳統(tǒng)手段結(jié)合。
然而,肖煌認(rèn)為,將人工智能用于網(wǎng)絡(luò)安全則有另外的優(yōu)勢(shì),那就是提高分析效率。人工智能的典型作用是代替人類(lèi)做大量重復(fù)的勞動(dòng),比如用人工智能分析影像圖片,將影像醫(yī)生從低效率的重復(fù)勞動(dòng)中解放了出來(lái)。
網(wǎng)絡(luò)安全行業(yè),也同樣如此。
數(shù)據(jù)顯示,中國(guó)目前對(duì)網(wǎng)絡(luò)安全人才的總需求量超過(guò) 70 萬(wàn),每年增加的人才卻不過(guò)兩三萬(wàn),缺口高達(dá) 95%。而且,一個(gè)分析師每天能分析的漏洞卻是非常有限的。
「如果不通過(guò)自動(dòng)化的手段,將來(lái)物聯(lián)網(wǎng)連接設(shè)備數(shù)爆發(fā)的時(shí)候,大量的信息安全隱患只依賴(lài)人來(lái)分析是不太可能的?!剐せ捅硎?,一個(gè)信息安全分析師每天最多能看一兩千條 log 數(shù)據(jù),或者一兩百個(gè)代碼片,而對(duì)人工智能來(lái)說(shuō),幾百萬(wàn)條數(shù)據(jù),只需花費(fèi)幾分鐘時(shí)間。
根據(jù)肖煌的觀察,信息安全和人工智能,領(lǐng)域不同,思維方式也有一定區(qū)別,前者更偏向于系統(tǒng)工程,后者則更偏向于數(shù)學(xué)思維。因此,肖煌的很多同事認(rèn)為人工智能解決的問(wèn)題有限,更愿意使用傳統(tǒng)的方法,但也會(huì)朝著分析自動(dòng)化的方向思考。
「我相信任何一個(gè)做信息安全的人必然要向這個(gè)方向靠攏?!剐せ拖M苡泌呌诔墒斓?a href="http://search.www.usllm.cn/search_sell.asp?keywords=%u81EA%u52A8%u5316" class="keyword_link" title="查看更多“自動(dòng)化”信息!" target="_blank">自動(dòng)化手段完成垂直領(lǐng)域的性能提升,包括分析的效率、時(shí)效性、規(guī)模和可解釋性。
人工智能時(shí)代的攻與防
網(wǎng)絡(luò)安全是道高一尺魔高一丈的世界。安全人員使用人工智能技術(shù)阻擋黑客攻擊,反過(guò)來(lái)這也會(huì)使黑客使用人工智能技術(shù)發(fā)起更復(fù)雜的攻擊。而隨著大量人工智能模型開(kāi)源,黑客入侵的工具也愈發(fā)多樣化。
肖煌表示,只要稍加學(xué)習(xí),黑客就可以利用開(kāi)源工具欺騙識(shí)別系統(tǒng),而技術(shù)難度的降低會(huì)促使很多人成為黑客,或者是進(jìn)行一些此前做不到的攻擊。
這并非杞人憂天。
在網(wǎng)絡(luò)釣魚(yú)電子郵件中已有這樣的案例,黑客通過(guò)模仿人類(lèi)的說(shuō)話習(xí)慣和內(nèi)容,使得企業(yè)或個(gè)人被入侵時(shí)更加難以識(shí)別。
肖煌認(rèn)為,以后的病毒變種會(huì)越來(lái)越多,檢測(cè)越來(lái)越難,規(guī)模越來(lái)越大,生成的時(shí)間越來(lái)越短。

?。ǒB加在典型圖片輸入上的對(duì)抗輸入會(huì)讓分類(lèi)器產(chǎn)生錯(cuò)覺(jué),誤將熊貓識(shí)別為長(zhǎng)臂猿)
2017 年 2 月,OpenAI 在發(fā)表的最新研究中,指出人工智能安全領(lǐng)域的另一大隱憂:對(duì)抗樣本。在圖像識(shí)別問(wèn)題中,攻擊者將對(duì)抗樣本輸入機(jī)器學(xué)習(xí)模型,讓機(jī)器在視覺(jué)上產(chǎn)生幻覺(jué),從而讓系統(tǒng)產(chǎn)生誤判。而在論文《解釋并馴服對(duì)抗樣本》(Explaining and Harnessing Adversarial Examples)中有一個(gè)例子:一張熊貓圖片,被加入人為設(shè)計(jì)的微小噪聲后,就導(dǎo)致系統(tǒng)將熊貓識(shí)別為長(zhǎng)臂猿。
多年來(lái),肖煌一直在研究對(duì)抗性機(jī)器學(xué)習(xí),致力于攻克機(jī)器學(xué)習(xí)算法本身的缺陷。他分析道,依賴(lài)于數(shù)據(jù)的機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)算法本身存在很大的缺陷。對(duì)抗性生成網(wǎng)絡(luò),則利用這種缺陷,設(shè)計(jì)新的架構(gòu)去生成模型。
「因?yàn)槟壳暗臋C(jī)器學(xué)習(xí)嚴(yán)重依賴(lài)于數(shù)據(jù)的分布,如果數(shù)據(jù)分布本身很復(fù)雜,或者是人為地把它變得復(fù)雜,黑客如果有手段去生成惡意的樣本,就會(huì)導(dǎo)致識(shí)別不出來(lái),或者識(shí)別錯(cuò)誤。」肖煌進(jìn)一步解釋。
肖煌表示,如果干擾被用在無(wú)人駕駛領(lǐng)域,后果則不堪設(shè)想。比如,在無(wú)人駕駛測(cè)試路段德國(guó) A9 高速公路上,有專(zhuān)門(mén)的標(biāo)識(shí)引導(dǎo)無(wú)人駕駛車(chē)。如果路邊的標(biāo)識(shí)被惡意修改,誤導(dǎo)依賴(lài)標(biāo)識(shí)的無(wú)人駕駛車(chē),則會(huì)造成極度危險(xiǎn)的情況。
肖煌認(rèn)為,因?yàn)樗惴ū旧淼娜毕?,在大?guī)模使用人工智能之后,網(wǎng)絡(luò)安全則需要更換思路,設(shè)計(jì)新的方法。
對(duì)此,他提供了以下路徑。
一,增加分析端的可解釋性。肖煌分析,如果是病毒威脅入侵,用機(jī)器學(xué)習(xí)檢測(cè)的方法,很難解決,因此希望能在信息安全泄露事故時(shí),用統(tǒng)計(jì)學(xué)的方法理解其中的關(guān)聯(lián),黑客如何入侵系統(tǒng),攻擊的路徑是什么,又是哪個(gè)環(huán)節(jié)出現(xiàn)了問(wèn)題,找出這些關(guān)聯(lián),或者從因果關(guān)系圖譜角度進(jìn)行分析,從而增加分析端的可解釋性。
二,目前的機(jī)器學(xué)習(xí)算法模型太復(fù)雜,需要使用大量的數(shù)據(jù),就存在 Tradeoff(權(quán)衡取舍)的情況。肖煌認(rèn)為,降低算法復(fù)雜度的方法有很多,比如,引入先驗(yàn)的知識(shí),引導(dǎo)模型往一個(gè)方向?qū)W習(xí)。這樣學(xué)習(xí)的模型復(fù)雜度會(huì)降低,需要的數(shù)據(jù)也比較少。
三,信息安全情報(bào)的共享也非常重要。比如,模型存在某個(gè)缺陷,把這個(gè)缺陷提取出來(lái),用一種高效的手段,編譯到另一種模型中去,另外的模型則無(wú)此缺陷。肖煌認(rèn)為,這類(lèi)似遷移學(xué)習(xí)(Transfer learning),只是遷移學(xué)習(xí)是遷移中間的學(xué)習(xí)結(jié)果,實(shí)際上中間學(xué)習(xí)出來(lái)的異常也可以遷移,從而增加算法的安全性。
