智東西(公眾號:zhidxcom)
編 | 董溫淑

智東西4月20日消(xiao)息,AI換臉已不是新鮮事,手機應用(yong)(yong)市場(chang)中(zhong)有多款換臉app,此前也曾曝出有網絡IP用(yong)(yong)明(ming)星的面孔(kong)偽造色情影片、在大選期間用(yong)(yong)競選者的臉制作虛假(jia)影像信息等。

為了規避Deepfake濫用帶來(lai)的惡(e)性后(hou)果,許多(duo)研究(jiu)者嘗試用AI技術(shu)開發鑒(jian)定(ding)分類器。

然而,谷(gu)歌公(gong)司(si)和加州大(da)學(xue)伯克利分(fen)(fen)校的(de)(de)研究人員(yuan)最近的(de)(de)研究顯示(shi),現在(zai)的(de)(de)鑒(jian)定(ding)技術水(shui)平還不足以(yi)100%甄(zhen)別出(chu)AI換(huan)臉(lian)作品。另(ling)一項由加州大(da)學(xue)圣地(di)亞哥分(fen)(fen)校主導的(de)(de)研究也(ye)得出(chu)了相同結(jie)論。

這些研究結果為(wei)我們敲響了警鐘,要警惕AI換臉制(zhi)作(zuo)的虛假信息。

目(mu)前谷歌(ge)和加州大(da)學(xue)伯(bo)克利分校(xiao)的研究已(yi)經發表在(zai)學(xue)術網(wang)站arXiv上,論文標題為(wei)《用(yong)白盒、黑盒攻擊繞過Deepfake圖像鑒別工具(ju)(Evading Deepfake-Image Detectors with White- and Black-Box Attacks)》

論(lun)文鏈接(jie):

深度揭秘AI換臉原理,為啥最先進分類器也認不出?

一、實驗準備:訓練3種分類器,設置對照組

實現AI換臉的技術被稱為Deepfake,原理是基于生成(cheng)對抗(kang)網絡(luo)(generative adversarial networks,GAN)合成(cheng)虛(xu)假圖片。GAN由一個生成(cheng)網絡(luo)和一個判別網絡(luo)組(zu)成(cheng)。

GAN模(mo)型的學(xue)習(xi)過程(cheng)(cheng)就是生(sheng)成(cheng)網絡和判(pan)別網絡的相互博弈的過程(cheng)(cheng):生成(cheng)網絡隨機合成(cheng)一張(zhang)(zhang)圖(tu)片,讓判(pan)(pan)別(bie)網絡判(pan)(pan)斷這(zhe)張(zhang)(zhang)圖(tu)片的(de)真假,繼(ji)而根據(ju)判(pan)(pan)別(bie)網絡給出的(de)反饋不斷提高(gao)“造假”能(neng)力,最終(zhong)做(zuo)到以假亂真。

研究人員共對3個(ge)(ge)分(fen)類(lei)器(qi)做了測試(shi),其中兩(liang)個(ge)(ge)為第三方分(fen)類(lei)器(qi),一個(ge)(ge)為研究人員訓(xun)練出的用于對照的分(fen)類(lei)器(qi)。

選用的第三方(fang)分類器分別(bie)采(cai)用兩種不同訓(xun)練方(fang)式(shi)。

第(di)一個分類器模型基于深(shen)度殘(can)差網絡ResNet-50(Deep residual network)。

用到(dao)的(de)ResNet-50預(yu)先(xian)經過大(da)型視覺數據庫(ku)ImageNet訓(xun)練,接(jie)下來再(zai)被訓(xun)練用于辨別真假(jia)圖(tu)像(xiang)。采用包(bao)含720000個訓(xun)練圖(tu)像(xiang)、4000個驗(yan)證圖(tu)像(xiang)的(de)訓(xun)練集,其中一(yi)半為真實圖(tu)像(xiang),另一(yi)半是用ProGAN生成的(de)合成圖(tu)像(xiang)。合成圖(tu)像(xiang)采用空間模糊和(he)JEPG壓縮(suo)方(fang)法增(zeng)強。

經過訓練后,這個分類(lei)(lei)器能準確識別出ProGAN生成的圖像,而(er)且還能分類(lei)(lei)其他未(wei)被發(fa)現的圖像。

第二個鑒定(ding)分類器(qi)采用的(de)是基于相似性學習(similar learning-based)的(de)方法。經過訓練(lian)后這款(kuan)分類器(qi)可(ke)以(yi)準(zhun)確辨認出由不同生成器(qi)合(he)成的(de)圖像(xiang)。

研(yan)究(jiu)團隊還自己搭建了(le)一個(ge)鑒定分類器模型,作為前述(shu)兩(liang)個(ge)鑒定分類器的對照示例。這個(ge)分類器采用(yong)100萬個(ge)ProGAN生(sheng)成的圖像進行訓(xun)(xun)練,其中(zhong)真假(jia)圖像各占(zhan)一半(ban)。論文中(zhong)指出,這個(ge)分類器的訓(xun)(xun)練管道比前述(shu)兩(liang)種簡單很多(duo),因(yin)此(ci)錯誤率也更高(gao)。

研究人員根(gen)據(ju)分(fen)類器是否開(kai)(kai)放(fang)了訪問權(quan)(quan)限(xian),選用(yong)了不同的攻(gong)擊(ji)方式。對開(kai)(kai)發訪問權(quan)(quan)限(xian)的分(fen)類器采(cai)用(yong)白(bai)盒(he)(he)攻(gong)擊(ji);對不開(kai)(kai)放(fang)訪問權(quan)(quan)限(xian)的分(fen)類器采(cai)用(yong)黑盒(he)(he)攻(gong)擊(ji)。

另外,研究(jiu)人員用接收(shou)者操作特(te)征曲(qu)線(xian)(ROC曲(qu)線(xian))評估(gu)分(fen)類(lei)器的(de)正(zheng)確率。評估(gu)標準是曲(qu)線(xian)下面積(AUC)的(de)大小。AUC的(de)取值范圍為0~1,一般(ban)來說(shuo)AUC>0.5即代表分(fen)類(lei)器有預(yu)測價值,AUC值越大代表分(fen)類(lei)器準確率越高。

二、4種(zhong)白盒攻擊方法,AUC最低(di)被降(jiang)至(zhi)0.085

對(dui)于開放(fang)了訪問權(quan)限的分類器(qi),研究人員用白盒攻擊評估其(qi)穩健性。

白盒攻(gong)擊即攻(gong)擊者(zhe)(zhe)能夠獲知分(fen)類器所使用的(de)(de)算法以(yi)及算法使用的(de)(de)參數(shu)。在產生對抗性攻(gong)擊數(shu)據的(de)(de)過程(cheng)中,攻(gong)擊者(zhe)(zhe)能夠與(yu)分(fen)類器系統產生交互。

攻擊過程中用到的(de)(de)所有圖像都來自一個包含94036張圖像的(de)(de)視覺(jue)數據(ju)庫。

開始白盒(he)攻擊之(zhi)前,基于這(zhe)個(ge)數(shu)據庫的(de)分類器的(de)AUC數(shu)值為0.97。即使在執行(xing)典(dian)型的(de)清洗(xi)策略隱藏圖(tu)像合成痕(hen)跡后,分類器的(de)AUC數(shu)值仍保持在0.94以(yi)上。

接下來研究人員使(shi)用了(le)4種(zhong)白盒攻(gong)(gong)擊(ji)方(fang)法。這(zhe)4種(zhong)攻(gong)(gong)擊(ji)在之前的對抗(kang)性示例(li)中已有過(guo)研究。攻(gong)(gong)擊(ji)的具體(ti)方(fang)式是(shi)對圖像進行(xing)修改,使(shi)分類器誤認為它(ta)們是(shi)真(zhen)實的。

深度揭秘AI換臉原理,為啥最先進分類器也認不出?

▲四(si)種攻擊前(qian)后(hou),分(fen)類器(qi)的ROC曲線圖。藍(lan)色實線代(dai)(dai)表JPEG格式(shi)的合成圖像(xiang),藍(lan)色虛線代(dai)(dai)表PNG格式(shi)的合成圖像(xiang)

第一種是失真(zhen)(zhen)最小(xiao)化攻擊(Distortion-minimizing Attack),即對合(he)成圖(tu)像添加(jia)一個較小(xiao)的(de)加(jia)法擾(rao)動δ。假設一個合(he)成圖(tu)像x先被分(fen)類器(qi)判定為假,施加(jia)擾(rao)動后,(x+δ)就(jiu)會被判定為真(zhen)(zhen)。

結果顯示,像素翻轉2%,就(jiu)會(hui)有71.3%的假(jia)圖像被(bei)(bei)誤(wu)判為(wei)真(zhen);像素翻轉4%,會(hui)有89.7%的假(jia)圖像被(bei)(bei)誤(wu)判為(wei)真(zhen);像素翻轉4~11%,所有的假(jia)圖像都會(hui)被(bei)(bei)誤(wu)判為(wei)真(zhen)。

深度揭秘AI換臉原理,為啥最先進分類器也認不出?

▲a:分(fen)類器把假(jia)圖像(xiang)識(shi)(shi)別為(wei)(wei)真(zhen)(zhen);b:分(fen)類器把真(zhen)(zhen)圖像(xiang)識(shi)(shi)別為(wei)(wei)假(jia)。把像(xiang)素翻(fan)轉1%,就會(hui)有一半的假(jia)圖像(xiang)被判定(ding)為(wei)(wei)真(zhen)(zhen);把像(xiang)素翻(fan)轉7%,就會(hui)有一半的真(zhen)(zhen)圖像(xiang)被判定(ding)為(wei)(wei)假(jia)。

第(di)二種是損失最大(da)化(hua)攻擊(Loss-Maximizing Attack),即定(ding)義一個更(geng)簡(jian)單的(de)目標函數,更(geng)大(da)限度(du)地(di)提(ti)升合成圖像被(bei)判定(ding)為真的(de)概率。

結果顯示把未壓縮圖(tu)像(xiang)的像(xiang)素翻(fan)轉40%,AUC值就會從0.966降到0.27。

第三種是通用(yong)對抗性補丁攻擊(Universal Adversarial-Patch Attack)。失(shi)真最小化攻(gong)擊方(fang)法有(you)有(you)一(yi)個局限性:攻(gong)擊者需要花費0.1秒為每個圖像定(ding)制攻(gong)擊方(fang)式(shi)。為了彌補(bu)這(zhe)一(yi)(yi)局限性,研究人員創(chuang)建了一(yi)(yi)個(ge)單一(yi)(yi)的可視噪聲(sheng)模板補(bu)丁。這(zhe)個(ge)補(bu)丁可以疊加在任何假(jia)圖(tu)像上(shang),有效(xiao)增加了假(jia)圖(tu)像的迷(mi)惑(huo)性。

疊加補(bu)丁(ding)后,分類器的(de)AUC值(zhi)從0.966降到0.085。

不同于之前三種(zhong)方法通過對假圖像施加擾動來(lai)影響(xiang)分(fen)類結果,第四(si)種(zhong)攻(gong)擊(ji)方法是通用潛空間攻(gong)擊(ji)(Universal Latent-Space Attack),即(ji)對圖像的(de)(de)潛在空間進行攻(gong)擊(ji)。最終把分(fen)類器的(de)(de)AUC值從0.99降(jiang)到0.17。

深度揭秘AI換臉原理,為啥最先進分類器也認不出?

▲a為(wei)通用對抗性補丁(ding)攻擊(ji)效(xiao)果,b~d為(wei)通用潛空間攻擊(ji)效(xiao)果。圖中所有假圖像都(dou)被分類器誤判為(wei)真

三、限制條件進行(xing)黑盒攻(gong)擊,AUC值(zhi)降至0.22以下

論文指出,現實中的社交網(wang)站(zhan)、約(yue)會(hui)網(wang)站(zhan)等,并不會(hui)公開其鑒定分類器的算法,因(yin)此很(hen)難進行前面所(suo)說的白盒攻(gong)擊。

面對(dui)這種情況,研究人員進行了(le)黑盒攻擊。黑盒攻擊假設對(dui)方(fang)知道攻擊的存在,并(bing)且掌握了(le)一般的防(fang)御策略(lve)。

研究結果(guo)顯示,即使(shi)在這(zhe)種限制(zhi)性較強(qiang)的(de)黑(hei)盒(he)攻擊(ji)條件(jian)下,鑒定分類(lei)器也很容易受(shou)到(dao)對抗(kang)性因素影(ying)響。經過黑(hei)盒(he)攻擊(ji),分類(lei)器的(de)AUC數值下降到(dao)0.22以下。

結語:現有分類器(qi)有局限性,仍需深入(ru)研究

谷(gu)歌(ge)公司和(he)加州(zhou)大學伯克利分(fen)校研究團(tuan)隊證明,只要對虛假圖片(pian)適(shi)當加以處理(li),就(jiu)能使(shi)其“騙”過分(fen)類器。

這種現(xian)象令人擔憂,論文中寫道(dao):“部(bu)署這樣的分類器會比不(bu)部(bu)署還(huan)(huan)糟糕,不(bu)僅虛假圖像本身顯得十分真實,分類器的誤判還(huan)(huan)會賦(fu)予它額(e)外的可信(xin)度”。

因此,研(yan)究人(ren)員建議開(kai)創新的(de)檢測方法(fa),研(yan)究出可以識別(bie)經過再壓(ya)縮、調(diao)整大小(xiao)、降低(di)分辨率等(deng)擾動手段(duan)處理的(de)假圖像。

據悉(xi),目前有許(xu)多機(ji)(ji)構正在(zai)從事這一(yi)工作,如臉書、亞馬遜網絡服務及(ji)其他機(ji)(ji)構聯合發起了“Deepfake鑒別挑戰”,期待(dai)能探索出(chu)更好的解決方案(an)。

文章來源:VentureBeat,arXiv