
智東西(公眾號:zhidxcom)
編 | 子佩
智東西11月4日消息,隨著越來越多關于(yu)人臉識別和圖(tu)像(xiang)分類中“種族歧視”的討論(lun),科學(xue)家們也開始(shi)研究如何量化(hua)評估圖(tu)像(xiang)模(mo)型和數據集中的“偏見”。
ImageNet圖(tu)(tu)像(xiang)數(shu)據(ju)集(ji)通常被圖(tu)(tu)像(xiang)分類AI模型用作訓練集(ji),它包含大量從互聯(lian)網中抓取的(de)照片,這也意(yi)味(wei)著(zhu)如(ru)果模型是基于該數(shu)據(ju)集(ji)訓練,那有(you)極大可能(neng)會自動(dong)“繼承”其在種(zhong)族、性別、體重等方面的(de)偏見。
卡內基梅(mei)隆大學(xue)(xue)和喬治華盛頓(dun)大學(xue)(xue)的科(ke)學(xue)(xue)家們近期開(kai)發(fa)出了(le)一(yi)種(zhong)新穎的方法,用于(yu)量化如(ru)種(zhong)族和性(xing)別等社(she)會(hui)偏見與圖(tu)像之間(jian)的關(guan)聯,并(bing)在研究過(guo)程中(zhong)發(fa)現圖(tu)像模型確實在網絡圖(tu)片中(zhong)自動學(xue)(xue)會(hui)“刻板印象”。
論文鏈接://arxiv.org/pdf/2010.15052.pdf
一、加入詞嵌入技術,設計基準測試iEAT
很(hen)多(duo)公(gong)司和(he)研究人(ren)員(yuan)會定期通過互(hu)聯網(wang)中的(de)圖像數據集訓(xun)練機器學習模(mo)型。為了降低成本,許(xu)多(duo)公(gong)司采用了遷移(yi)學習的(de)方法,也就是(shi)先通過大型語(yu)料庫訓(xun)練最新(xin)模(mo)型,再將(jiang)訓(xun)練過的(de)模(mo)型轉移(yi)到其(qi)他應用場景,實現(xian)其(qi)他目標。
計(ji)算機視覺(jue)領域(yu)無監(jian)督訓練(lian)越來越普遍,這意(yi)味著它(ta)們在訓練(lian)過程中不會使用任何標(biao)簽。只需(xu)參數微調(diao),研究人員(yuan)在無監(jian)督學習產生(sheng)的(de)類別中挑(tiao)選出所需(xu)的(de)類別,以完成人臉識別、求職者(zhe)篩選、自動駕駛和(he)在線廣(guang)告投放等(deng)工作。
為了量(liang)化不同模(mo)型(xing)(xing)產生(sheng)的“偏(pian)見”,研究人員基于詞(ci)嵌(qian)入技術設(she)計(ji)了基準測試(shi)——圖(tu)像嵌(qian)入關聯測試(shi)(Image Embedding Association Test,簡稱iEAT)。即對圖(tu)像分類模(mo)型(xing)(xing)生(sheng)成的文本(ben)標簽,進行一次詞(ci)嵌(qian)入處理,將文本(ben)中的詞(ci)轉化為數字向量(liang),通過比較(jiao)不同模(mo)型(xing)(xing)生(sheng)成的向量(liang)結果(guo)來評估模(mo)型(xing)(xing)偏(pian)差(cha)。
二、基準測試實戰:iGPT、SimCLRv2兩模型battle
為了搞清(qing)楚在無(wu)監督預訓練階段(duan),圖像(xiang)標簽(qian)會產生哪(na)些類型(xing)的偏差(cha),研究人員對去年夏天發布的兩個計算機視覺模型(xing)進(jin)行(xing)了測試:OpenAI的iGPT和Google的SimCLRv2。
兩者不僅預訓練(lian)數據集(ji)是(shi)相同的,都(dou)采用包含來自Flickr和其他200個照片分(fen)享網站(zhan)120萬張已標記圖(tu)像(xiang)的ImageNet 2012,而且生(sheng)成標簽的方式(shi)(shi)也相同,均基于圖(tu)像(xiang)特征(zheng)訓練(lian)集(ji)中的隱(yin)性(xing)模式(shi)(shi)。
為(wei)了比較兩個模(mo)型(xing)中(zhong)的(de)偏見,研(yan)究(jiu)人員(yuan)從(cong)Google、CIFAR-100數據集(ji)等數據源中(zhong)找出(chu)針對“年齡”、“性(xing)別(bie)”、“宗(zong)教信仰”、“性(xing)生活(huo)”、“體重”、“殘疾”和“種族”等極具(ju)爭議話(hua)題的(de)相關(guan)圖片。
研究(jiu)人員表示在iGPT和SimCLRv2中(zhong)都含有“顯著”偏差,這可能由于ImageNet中(zhong)數據的缺失。先前的研究(jiu)曾表明,ImageNet在種(zhong)族(zu)和性別方面(mian)并不“公平”,例(li)如,在“新郎”的類別里,白人圖片占大多數。
iGPT和(he)SimCLRv2都在情(qing)感傾向和(he)社會印(yin)象中都表(biao)現出種族(zu)偏(pian)見。
例(li)如,當研(yan)究人員(yuan)使(shi)用(yong)阿(a)拉(la)伯穆(mu)斯林(lin)的相關(guan)圖片進(jin)行iEAT基準(zhun)測試,就(jiu)會(hui)發(fa)現兩個模型都(dou)更傾向于將“阿(a)拉(la)伯穆(mu)斯林(lin)”定(ding)性為“令(ling)人不愉(yu)快”。
兩(liang)個模型都將“白(bai)人(ren)”與“工(gong)具”、“黑人(ren)”與“武器”標記為(wei)相關(guan),就(jiu)像Google的計算(suan)機視覺(jue)服務Google Cloud Vision,曾把持有溫度計的黑人(ren)男子標記為(wei)“槍”一樣。
除(chu)種族偏(pian)見(jian)外,研究人員也報(bao)告說,在預訓練的(de)iGPT和(he)SimCLRv2模型中性(xing)別(bie)和(he)體重偏(pian)見(jian)也是很嚴重的(de)問題。
當使用iEAT測(ce)試性別和職業(ye)的相關性時,“男性”更傾向于跟“企業(ye)”、“辦公(gong)室”相掛(gua)鉤,“女性”與“孩子”和“家庭”等標簽接(jie)近(jin)度更大。
基準測試也顯示iGPT會(hui)將(jiang)各(ge)學(xue)科(ke)與(yu)性(xing)別相關聯,例如,“男(nan)性(xing)”更傾(qing)向于“數學(xue)、工科(ke)等(deng)科(ke)學(xue)”,而“女性(xing)”更傾(qing)向于“自由、藝(yi)術”。
無論所有性別和種族(zu),iGPT在基準測(ce)試中都(dou)表示,瘦弱的人(ren)“令人(ren)愉悅”,而超重(zhong)的人(ren)“讓人(ren)不適”。
研究人員還(huan)報告(gao)說,iGPT的圖(tu)像預測功能更偏向于將輸入(ru)圖(tu)片定義為女性。
在測試中,研究人員向iGPT模型輸入的男女頭像,以生成全身圖像。?
無論原圖中的男女是穿著常規的常務套裝還是休閑運動服,iGPT都更傾向于為不同的頭像“接上”豐滿胸部或者泳衣。
三、解決刻板印象,需要更多突破
不(bu)(bu)幸的是,這些結果都并不(bu)(bu)令人(ren)驚訝,已經有(you)數不(bu)(bu)清的研(yan)究(jiu)表明人(ren)臉識(shi)別(bie)中(zhong)“偏(pian)見”盛行(xing)。
科羅拉多大學博爾德分校的研究人員去年秋天發表的一篇論文表明,來自亞馬遜、克拉里菲、微軟和其他公司的AI識別男女的準確率超95%,但將跨性別男性誤認為女性的幾率高達38%。?
Gender Shades項(xiang)目和(he)美國國家標準與技術研究(jiu)院(NIST)對主要(yao)供(gong)應商系統進行的獨立基(ji)準測試也表明,人臉識別普遍表現(xian)出種族(zu)和(he)性別偏見。
但(dan)是,也(ye)有很多研究機(ji)構正努力使ImageNet等數據集更(geng)具包容性。去年,ImageNet開發者斯坦(tan)福大學(xue)、普(pu)林斯頓大學(xue)和北卡羅萊(lai)納大學(xue)團隊就使用眾(zhong)包來(lai)識別和清除因(yin)為“偏見”而產(chan)生的負(fu)面標簽。
為了消除數據集中(zhong)的偏見,他(ta)們評(ping)估了ImageNet的人種(zhong)和地(di)域多樣性,并開發了一種(zhong)工具來挖(wa)掘(jue)在性別、種(zhong)族和年(nian)齡(ling)上(shang)更加多樣化的圖像。
結語:無公正,不標簽
由(you)于大規模模型(xing)訓(xun)練的高計算量(liang)和(he)能量(liang)消(xiao)耗(hao),大部分(fen)公司都會采用無(wu)監督(du)的轉移學習(xi),但也正因(yin)為無(wu)監督(du)學習(xi)中不需要(yao)標簽標注,所(suo)以獲(huo)取的數據極易(yi)帶上網絡中的刻(ke)板(ban)偏(pian)見。
“通過分析這些(xie)圖像(xiang)分類模(mo)(mo)型,我(wo)們能很(hen)明(ming)顯地看出(chu)當今社會對性別、種族有(you)什么樣的偏見。我(wo)們的iEAT基準測(ce)試也證實,具有(you)‘偏見’的圖像(xiang)模(mo)(mo)型會在(zai)社會上(shang)傳播刻板印象。”喬治華盛頓大學的研究人(ren)員Carnegie Mellon強調(diao)。
參考(kao)信源: VentureBeat