智東西(公眾號:zhidxcom)
編譯 | 金碧輝
編輯 | 程茜

智東(dong)西5月28日消息,據科技(ji)媒體The Decoder 5月26日報(bao)道,當(dang)天,谷歌正式發(fa)布開源大模型評測(ce)框架LMEval,支(zhi)持(chi)對(dui)GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B等主流模型進行多模態能力標準化評估。

LMEval基于LiteLLM框(kuang)架(能讓開發者通過統一API便捷調用GPT、Claude、Llama等上百款(kuan)大模型,并(bing)支持(chi)流式(shi)響應、批量推(tui)理及成(cheng)本監控等功能的開源框(kuang)架)打通谷歌、OpenAI、Anthropic、Ollama和Hugging Face五大廠商API接(jie)口(kou),首(shou)次實(shi)現文本、圖像(xiang)、代(dai)碼三類任務(wu)的一站式(shi)評測,并(bing)通過增量評估技術減少(shao)80%重復測試算(suan)力消(xiao)耗(hao)。

LMEval的源代(dai)碼和示(shi)例筆記本已經在GitHub上公(gong)開,供廣大(da)開發者使用和研究(jiu)。

地址:

一、跨平臺互通,采用增量評估+多線程并行計算技術,測試效率提升5倍

LMEval基(ji)于LiteLLM框架,將(jiang)谷(gu)歌、OpenAI、Anthropic、Ollama、Hugging Face的API接口標準化,開(kai)發(fa)者(zhe)無需針對不同平(ping)臺重寫測試(shi)代(dai)碼。

同時(shi),科(ke)技媒體The Decoder援引谷歌官方說(shuo)道,LMEval系統采用增(zeng)量評估技術,配(pei)合(he)多線程(cheng)并行計算,能節省80%算力,原本(ben)8小時(shi)的測試流程(cheng)可壓縮至1.5小時(shi)。

在評估場(chang)景層面,LMEval突(tu)破了單一文(wen)本問(wen)答(da)的(de)局限,將圖(tu)像理解、代碼生成等場(chang)景納入評測范疇(chou),滿足多領域對大(da)模型能(neng)力評測的(de)需(xu)求。

在題型方面,LMEval提供了(le)是非判斷、多選問(wen)答、開(kai)放式(shi)生成等(deng)多達12種題型,為全面評(ping)估模型在不同(tong)任(ren)務形式(shi)下的表現創(chuang)造(zao)了(le)條件。同(tong)時,LMEval模塊化設計(ji)允許開(kai)發者依據(ju)自身研究或業務需求,靈活添加新的評(ping)估維(wei)度,增強了(le)框架(jia)的擴展性與(yu)適應性。

在(zai)安全評(ping)估層面(mian),LMEval新增的規避(bi)性回答(da)檢測(ce)功能(neng)能(neng)夠(gou)識別模型(xing)在(zai)面(mian)對(dui)敏感(gan)問題時所采取的推諉(wei)策略,這對(dui)于評(ping)估模型(xing)在(zai)處理敏感(gan)信息時的可(ke)靠性意義(yi)重大。

谷歌開源大模型評測工具LMEval,打通谷歌、OpenAI、Anthropic▲Giskard的(de)安全(quan)評分顯示了不(bu)同的(de)AI模型如何有效(xiao)地規避潛(qian)在的(de)有害內容。百分比(bi)越(yue)高,安全(quan)性就(jiu)越(yue)高。(圖(tu)源:谷歌)

在數(shu)據(ju)存(cun)(cun)儲與隱私(si)保護層面,LMEval將(jiang)測試數(shu)據(ju)存(cun)(cun)儲于(yu)自加密的(de)SQLite數(shu)據(ju)庫(ku)中(zhong),本地訪問需密鑰(yao)驗(yan)證(zheng),有(you)效阻斷搜(sou)索(suo)引(yin)擎抓(zhua)取,在數(shu)據(ju)使用過程中(zhong)全方位保障數(shu)據(ju)安(an)全與隱私(si)。

二、評測成本直降90%,月之暗面已部署

據The Decoder報道,LMEval采用(yong)增量(liang)評(ping)(ping)估技(ji)(ji)術(shu)后,企業(ye)新增測(ce)試(shi)場景的(de)運維成本降低90%。國內(nei)大模型創業(ye)公司月之暗面技(ji)(ji)術(shu)負責人王(wang)海明、劉(liu)征瀛在(zai)今(jin)年5月26日谷歌LMEval框架發布后的(de)媒體溝通會上透露,該工具已應用(yong)于其內(nei)部流程優化,在(zai)未使(shi)用(yong)LMEval前,月之暗面針對新模型或新場景的(de)評(ping)(ping)測(ce)往往需要數周時間(jian)來搭建(jian)測(ce)試(shi)環境、設計評(ping)(ping)測(ce)流程以(yi)及執(zhi)行測(ce)試(shi)。

而(er)引入LMEval后,原(yuan)本復雜冗長的流(liu)程得以簡化,現在僅(jin)需(xu)幾天就能完成一輪全面評測,研發周(zhou)(zhou)期(qi)大幅(fu)縮(suo)短(duan)超兩周(zhou)(zhou)。

LMEval配(pei)套的LMEvalboard可視化(hua)工具(ju)支(zhi)持(chi)生成雷(lei)達圖(tu),能直觀對比不同模型在各項能力上的表現短(duan)板。

谷歌開源大模型評測工具LMEval,打通谷歌、OpenAI、Anthropic

開發者點擊圖表即可(ke)查看(kan)具體(ti)錯(cuo)誤(wu)案例,還能(neng)(neng)并排對(dui)比不同模(mo)型對(dui)同一(yi)問(wen)題的響應差異,助力(li)精準定位模(mo)型性能(neng)(neng)優劣,為模(mo)型的優化與改進提供(gong)有力(li)依據

結語:谷歌開源LMEval框架,打通五大廠商API接口

谷歌(ge)開(kai)放的開(kai)源(yuan)框架LMEval基于LiteLLM框架,打通(tong)谷歌(ge)、OpenAI、Anthropic、Ollama和Hugging FaceAPI的API接口,讓開(kai)發者(zhe)能(neng)在統(tong)一環境下(xia)評(ping)(ping)測不(bu)同(tong)來源(yuan)模型。通(tong)過(guo)模塊(kuai)化設計,它可同(tong)時滿足(zu)文本、圖像、代碼等(deng)多模態評(ping)(ping)估(gu)需(xu)求,提供12種題(ti)型,還能(neng)靈活添加新評(ping)(ping)估(gu)維(wei)度(du)。而增量(liang)評(ping)(ping)估(gu)技術配合多線程并行計算(suan),節省80%算(suan)力,使(shi)企業新增測試場景的運維(wei)成本降低90%,顯(xian)著提升測試效(xiao)率(lv)、降低測試成本。

谷歌推出的(de)LMeval框(kuang)架通過(guo)標準化和(he)靈活性的(de)結(jie)合,為研究(jiu)人員和(he)開發者提供了便利。在未來(lai),隨著AI技術的(de)不斷演進,LMeval框(kuang)架或(huo)有可能成為行業內評(ping)測工作的(de)標準,助力(li)推動AI模型的(de)持(chi)續發展與優(you)化。

來(lai)源(yuan):The Decoder