
智東西(公眾號:zhidxcom)
編譯 |? 徐豫
編輯 |? 心緣
智東(dong)西(xi)9月(yue)29日消息,國際頂(ding)尖科學(xue)學(xue)術期刊Nature(《自(zi)然(ran)》)9月(yue)25日刊登了一篇有關AI大(da)模型(xing)“腦霧”現象的研(yan)究(jiu)。一個來自(zi)西(xi)班牙的研(yan)究(jiu)團隊發現,幾個參數量更大(da)、版本更新的AI大(da)模型(xing),誤答比(bi)例超(chao)60%。
其研究對象包括美國(guo)(guo)(guo)AI大(da)(da)模(mo)型獨角獸OpenAI的(de)GPT大(da)(da)模(mo)型、美國(guo)(guo)(guo)元宇宙巨頭Meta的(de)Llama大(da)(da)模(mo)型,以及由美國(guo)(guo)(guo)明星AI創(chuang)企Hugging Face參與創(chuang)立的(de)AI研究組織BigScience,推出的(de)BLOOM大(da)(da)模(mo)型。
“腦(nao)霧(wu)”通常用來描述一(yi)種大腦(nao)功(gong)能下降(jiang)的狀(zhuang)態,可能導致人們短暫出現(xian)一(yi)些認知功(gong)能障礙。在AI界,“腦(nao)霧(wu)”二字用來類比AI系統在處理某些任務時,會間(jian)歇性(xing)(xing)地失靈(ling),使得生(sheng)成結果(guo)準(zhun)確(que)性(xing)(xing)和響應效率都低(di)于正常水平。
這3家(jia)主流人(ren)工智能(AI)大模(mo)型(xing)的產品(pin)不斷升級迭(die)代。據研究數據顯示,經(jing)過優化(hua)后(hou)的AI大模(mo)型(xing)雖然基本上做到(dao)有問(wen)必答(da),但(dan)遇到(dao)超綱的問(wen)題時會錯(cuo)答(da)、亂答(da),而不是像(xiang)以前那樣逃避回答(da)。這大幅削弱了AI大模(mo)型(xing)的可信度。
與此同時,該研究還發現用戶難(nan)以分辨這些AI回答(da)的真實性,可能會錯信(xin)AI聊天機器人的說(shuo)法,以至(zhi)于被(bei)混(hun)淆視聽。
這項研究的(de)論文(wen)標題為《參數量更(geng)大且學習(xi)能(neng)力更(geng)強的(de)大語言模型的(de)可(ke)靠性降低(Larger and more instructable language models become less reliable)》,作者包括Lexin Zhou,Wout Schellaert,Fernando Martínez-Plumed,Yael Moros-Daval,Cèsar Ferri和José Hernández-Orallo。
一、GPT-4等AI大模型,升級后“腦霧”卻更嚴重了
José Hernández-Orallo是(shi)一位AI行業的(de)資深人士,也是(shi)這篇論文的(de)作者之一。據(ju)他介(jie)紹,該研究(jiu)團隊選(xuan)擇了(le)3個有代表性的(de)AI大模(mo)型作為研究(jiu)對(dui)象,分別是(shi)OpenAI的(de)GPT,Meta的(de)Llama,以及由(you)美(mei)國AI研究(jiu)組(zu)織BigScience研發的(de)開源模(mo)型BLOOM。研究(jiu)范圍包括這些AI大模(mo)型的(de)早期原始版本和(he)經過(guo)優化(hua)的(de)版本。
研究(jiu)人員對這些AI大(da)模型(xing)開展了數千次測試。其測試內容涵蓋(gai)算(suan)術、字謎(mi)、地理和科學等(deng)領(ling)域的(de)(de)問題。同時(shi),他們還設置了諸如(ru)“將列(lie)表內容按字母順序排(pai)列(lie)”的(de)(de)任務,以(yi)評估AI大(da)模型(xing)的(de)(de)信息轉化能力。
除此之外,他們還(huan)參考人們的主觀感受來區分(fen)提問難度。例如,人們普(pu)遍認為,一些有(you)關加拿大(da)多倫多的問題(ti),比一些有(you)關墨(mo)西(xi)哥的冷門(men)小鎮Akil的問題(ti)更簡單易(yi)答。
從測試結果(guo)可(ke)以得(de)知,AI大模(mo)型的(de)參(can)數量(liang)越(yue)大、版本越(yue)新,其回(hui)答的(de)準確(que)度越(yue)高(gao),但(dan)隨著(zhu)問題難度逐(zhu)步(bu)增加(jia),其回(hui)答的(de)準確(que)度有所下降。這(zhe)大致與研究人員的(de)預期相符(fu)。
然而(er),研究人員(yuan)發現(xian)這些主流的AI聊天機(ji)器(qi)人即使(shi)經過優(you)化,遇到無(wu)法回答(da)的問(wen)題時(shi)還是會傾向于生成錯誤答(da)案,而(er)不是直(zhi)接承認不清楚、不知(zhi)道。
在面對非常難的問(wen)題時,AI大(da)模型選擇不回答可能是(shi)一個明智之舉。不過,研究人(ren)員在測試的AI大(da)模型中(zhong),并(bing)未發現(xian)明顯的回避提(ti)(ti)問(wen)的趨(qu)勢。相反地,GPT-4等AI大(da)模型幾(ji)乎(hu)回答了所有(you)提(ti)(ti)問(wen)。
事實上,這些經過(guo)優化的(de)(de)AI大模型(xing)版本,反而誤答的(de)(de)情(qing)況(kuang)更嚴重。在所有(you)誤答和不答的(de)(de)情(qing)況(kuang)中,幾個經過(guo)微調的(de)(de)版本給出錯誤答案的(de)(de)比例(li)甚至超過(guo)了60%。
與(yu)此同時,研究(jiu)人員還發現AI大模型面對簡單的(de)提問,有時也會出(chu)現“腦霧”現象。這也意味著(zhu),用戶使用這些(xie)AI大模型時不(bu)存在所謂的(de)“安全(quan)操(cao)作(zuo)范圍(wei)”,無法確保AI給出(chu)的(de)答(da)案是對的(de)。
二、可能有10%到40%的用戶,聽信了AI大模型生成的錯誤言論
除(chu)了AI大模型(xing)本身“犯迷糊”,該研究還(huan)發現(xian)(xian),人(ren)們通常(chang)也難以發現(xian)(xian)AI回(hui)答中的錯誤。
為了(le)測試人們是否能自己發現AI的(de)“腦霧”行為,研(yan)究人員讓人們隨機判斷這(zhe)些回答是正(zheng)確的(de)、錯誤的(de)、還是逃避回答。
然而事實上(shang),無論(lun)這些問題的難度如何(he),人(ren)們(men)經常(chang)誤判,將不準確(que)(que)的答案當作正確(que)(que)答案。測(ce)試結果顯示,人(ren)們(men)誤判的頻率大約介(jie)于10%到(dao)40%。
Hernández-Orallo稱:“人(ren)類自(zi)身無(wu)法有效監督這(zhe)些AI大模(mo)型的演(yan)化。”他認為,用戶(hu)日常可能會過分高估和信任AI聊天機器(qi)人(ren)的能力,而(er)這(zhe)會帶(dai)來危(wei)險的后果。
三、人為劃定AI大模型的作答范圍,超綱一律答“不知道”
Hernández-Orallo提議,AI開(kai)發者應著重提升AI大模型在處理簡單(dan)問題時的(de)整體表現(xian),并且引導AI聊(liao)天機器人拒絕回答(da)一些較為困難(nan)的(de)問題,從而(er)讓(rang)用(yong)戶更容易判斷,在哪些情(qing)況下AI助(zhu)手是值得(de)信賴的(de)。人們要(yao)懂(dong)得(de)在哪個范圍內適合使用(yong)AI,而(er)在哪個范圍內AI助(zhu)手難(nan)以勝(sheng)任(ren)工(gong)作。
他進一步解(jie)釋道,雖(sui)然(ran)訓練AI聊(liao)天機(ji)器人處理(li)復雜問題的能力,不僅(jin)表面上(shang)令人印(yin)象深刻,還能在排(pai)行榜(bang)上(shang)有不錯的競爭力,但有時并(bing)不管用。
OpenAI最(zui)新的o1大(da)模(mo)型給(gei)他留下了深刻的印象。但他發(fa)現,盡管(guan)該模(mo)型可以執行兩個(ge)非常大(da)的數字的乘法運算指令,但是它給(gei)出了一個(ge)錯誤的答案。
在Hernández-Orallo看來(lai),這個問(wen)題可以(yi)通過設定一個閾值上線來(lai)解決,當AI聊(liao)天機器人遇到(dao)超(chao)出這個閾值的(de)復(fu)雜問(wen)題,直接回復(fu)“我不知道”就(jiu)好。
四、AI大模型越來越擅長不懂裝懂,會用觀點而非事實作答
AI大語言模型(LLM)在(zai)回答問題時(shi)會犯錯,或者(zhe)出(chu)現“腦霧”的(de)(de)情況,已經引(yin)起了很多人的(de)(de)注意。
來自西班牙瓦倫西亞AI研究所的(de)Hernández-Orallo及其同事共(gong)同研究了(le),AI大模(mo)型不(bu)斷迭代優化(hua)后,其“腦霧”現象是如何隨之變化(hua)的(de)。
這里(li)AI大(da)模型的優化包括更大(da)的參數量或決(jue)策節點、使用(yong)了(le)更多(duo)(duo)的訓練數據、消(xiao)耗了(le)更多(duo)(duo)的算力等情況(kuang)。該研究團隊還跟蹤分析了(le)AI大(da)模型出現“腦(nao)霧”的頻率(lv)高低,是否與人(ren)們所認(ren)為的問題難度相匹配,以及是否與人(ren)們發現AI回答(da)錯誤(wu)的頻率(lv)相對應。
該研究團(tuan)隊(dui)發(fa)現,采用強化(hua)學習(xi)等方(fang)式(shi)人為微(wei)調后的(de)AI大模(mo)型版本(ben),其生成(cheng)答案的(de)準確度(du)整體上(shang)有所提(ti)高。但(dan)似乎(hu)不能高興得(de)太早,這些AI大模(mo)型的(de)錯誤率也在同步增加。
研究發現(xian)一些原(yuan)本AI大(da)模(mo)型選擇“逃避回答”的問題(ti),過(guo)去會用“我不知道”或(huo)者轉移話題(ti)來(lai)解(jie)決(jue),但現(xian)在(zai)更(geng)多是通(tong)過(guo)給出一個錯誤答案來(lai)應付。這使得這些AI大(da)模(mo)型出現(xian)“腦霧(wu)”情(qing)況的比例增(zeng)加(jia),反而變得更(geng)加(jia)不可靠。
Hernández-Orallo稱:“現在這(zhe)些AI大模型基本上有(you)問必答,這(zhe)意味著生成(cheng)更(geng)多正確答案的同(tong)時,錯誤答案卻也更(geng)多了。”換句話說,當聊天的話題超出了一(yi)個AI聊天機器(qi)人現有(you)的知識儲備,它輸出觀(guan)點的傾向比過去更(geng)明(ming)顯。
在(zai)英(ying)國格拉斯哥大(da)學(the University of Glasgow)攻讀科(ke)學與技術(shu)專業的哲學家Mike Hicks,將這(zhe)種“腦(nao)霧”現象稱(cheng)為“胡(hu)扯”,即這(zhe)些AI大(da)模型越來越擅(shan)長(chang)不懂裝懂。
結語:針對專業領域微調的AI聊天機器人,其“腦霧”頻率有效降低
現在已有(you)部分AI大模型采取了(le)與(yu)設(she)定(ding)閾值(zhi)類似的方(fang)法。它們遇(yu)到(dao)超出(chu)知識范圍的問題(ti)(ti)后,會回答“我(wo)不(bu)知道(dao)”,或者“我(wo)沒有(you)足夠的信息來解答這個問題(ti)(ti)”。
哥倫比亞(ya)南卡羅來納大學(xue)(the University of South Carolina)的(de)(de)計算機(ji)科學(xue)家Vipula Rawte稱,基本上(shang)所有AI開發者都(dou)致(zhi)力于減少AI大模型的(de)(de)“腦霧”現象,有時還(huan)會(hui)特意(yi)優(you)化這一點。包括醫(yi)學(xue)用途在(zai)內,一些針對(dui)專業領域(yu)設計的(de)(de)AI聊天機(ji)器(qi)人,其回答機(ji)制通常(chang)更嚴謹,以(yi)免(mian)它們亂(luan)答超綱問題。
然而,Vipula Rawte也補充說,如(ru)果AI開發者想要銷售(shou)通用的AI聊天機器人,那(nei)么(me)這種更保守的回答機制,一般情況下(xia)不是他們會選擇的賣點。
來源:Nature