中文通用大模型綜合性評測基準SuperCLUE正式發(fā)布。
SuperCLUE: A Benchmark for Foundation Models in Chinese
SuperCLUE是什么
中文通用大模型基準(SuperCLUE),是針對中文可用的通用大模型的一個測評基準。
它主要回答的問題是:在當前通用大模型大力發(fā)展的情況下,中文大模型的效果情況。包括但不限于:這些模型不同任務(wù)的效果情況、相較于國際上的代表性模型做到了什么程度、 這些模型與人類的效果對比如何?
它嘗試在一系列國內(nèi)外代表性的模型上使用多個維度能力進行測試。SuperCLUE是中文語言理解測評基準(CLUE)在通用人工智能時代的進一步發(fā)展。
Github地址:https://github.com/CLUEbenchmark/SuperCLUE
SuperCLUE評測榜單
榜單由三部分組成:總榜單、基礎(chǔ)能力榜單、中文特性榜單
排行榜會定期更新,可訪問:www.CLUEbenchmarks.com/superclue.html
總榜單
基礎(chǔ)能力榜單
中文特性榜單
SuperCLUE的構(gòu)成與特點
著眼于綜合評價大模型的能力,使其能全面地測試大模型的效果,又能考察模型在中文上特有任務(wù)的理解和積累。我們對能力進行了劃分, SuperCLUE從三個不同的維度評價模型的能力:基礎(chǔ)能力、專業(yè)能力和中文特性能力。
基礎(chǔ)能力:
包括了常見的有代表性的模型能力,如語義理解、對話、邏輯推理、角色模擬、代碼、生成與創(chuàng)作等10項能力。
專業(yè)能力:
包括了中學、大學與專業(yè)考試,涵蓋了從數(shù)學、物理、地理到社會科學等50多項能力。
中文特性能力:
針對有中文特點的任務(wù),包括了中文成語、詩歌、文學、字形等10項多種能力。
SuperCLUE的特點
多個維度能力考察(3大類70+子能力):
從三個不同角度對中文大模型進行測試,以考察模型的綜合能力;并且每一個子能力又含有十項或以上不同的細分能力。
自動化測評(一鍵測評):
通過自動化測評方式以相對客觀形式測試不同模型的效果,可以一鍵對大模型進行測評。
廣泛的代表性模型(9個模型):
選取了多個國內(nèi)外有代表性的可用的模型進行測評,以反映國內(nèi)大模型的發(fā)展現(xiàn)狀并了解與國際領(lǐng)先模型的差距或相對優(yōu)劣勢。
人類基準:
在通用人工智能發(fā)展的情況下,也提供了模型相對于人類效果的指標對比。
SuperCLUE的數(shù)據(jù)集
1.基礎(chǔ)能力(10項能力):語義理解、生成與創(chuàng)作、閑聊、對話、百科與知識、邏輯與推理、計算能力、代碼、角色模擬、安全
示例:
--語義理解:
兩個男人正常交談,其中一個男人夸贊對方辦事能力強,對方回答“哪里,哪里”。這里的“哪里,哪里”是什么意思?
A. 講話十分含糊不清。
B. 要求說出具體的優(yōu)點。
C. 表達自己的謙虛。
D. 挑釁對方。
--邏輯與推理:
小明的妻子生了一對雙胞胎。以下哪個推論是正確的?
A. 小明家里一共有三個孩子。
B. 小明家里一共有兩個孩子。
C. 小明家里既有男孩子也有女孩子。
D. 無法確定小明家里孩子的具體情況。
2. 中文特性能力(10項能力):成語、詩詞、文學、字義理解、漢語句法分析、漢字字形和拼音理解、歇后語和諺語、對聯(lián)、方言、古文
示例:
--成語:
選出下列句子中成語使用錯誤的一項
A. 這個項目時間緊任務(wù)重,大家都在馬不停蹄地奔波勞碌。
B. 他常??谑切姆?,讓人難以相信他說的話。
C. 兩人是同學三年,一直保持著良好的關(guān)系,相互尊重、相敬如賓。
D. 當?shù)赝话l(fā)大火,整個村莊都雞犬不寧,局勢十分危急。
--文學:
下列有關(guān)名著的表述有誤的一項是
A. 《紅樓夢》是中國古代小說中的巔峰之作,以其瑰麗的語言和豐富的人物形象而聞名于世。
B. 《西游記》是中國古代四大名著之一,講述了哪吒等人歷經(jīng)九九八十一難,最終取得真經(jīng)的故事。
C. 《孔乙己》是魯迅的代表作之一,以其深刻的社會洞察力和優(yōu)美的文學風格而廣受好評。
D. 《圍城》是錢鐘書的代表作之一,以其獨特的文學語言和深刻的社會洞察力而成為現(xiàn)代中國文學的經(jīng)典之作。
3. 專業(yè)能力(50+能力):抽象代數(shù)、天文學、臨床知識、大學生物學、大學計算機科學、大學數(shù)學、高中化學、高中物理、機器學習、營養(yǎng)、專業(yè)會計、職業(yè)心理學等
示例:
--物理:
以下物理常識題目,哪一個是錯誤的?
A. 在自然環(huán)境下,聲音在固體中傳播速度最快。
B. 牛頓第一定律:一個物體如果不受力作用,將保持靜止或勻速直線運動的狀態(tài)。
C. 牛頓第三定律:對于每個作用力,都有一個相等而反向的反作用力。
D. 聲音在空氣中的傳播速度為1000m/s。
--天文學:
以下天文學常識題目,哪一個是錯誤的?
A. 太陽系是指由太陽和圍繞著它運行的八大行星、矮行星、衛(wèi)星、小行星帶和彗星組成的一個行星系統(tǒng)。
B. 衛(wèi)星是指繞行星或其他天體運動的天體。
C. 彗星是指太陽系中一種較小的天體,其核心由冰和塵埃組成。
D. 按一般的天體歸類方法,月球?qū)儆谛行恰?/p>
SuperCLUE全自動測評過程
1、統(tǒng)一prompt: 針對每一個題目,構(gòu)造了統(tǒng)一的prompt供模型和人類使用。
2、預測: 系統(tǒng)使用模型進行預測,要求模型選取ABCD中一個唯一的選項。
3、打分: 如果模型的回答不是標準的答案,而是一段文字,系統(tǒng)會采取特定的策略自動提取出模型的答案。該策略結(jié)合模型的表現(xiàn)進行優(yōu)化和完善。
( 注:當無法提取有效答案的時候,則表明模型沒有按照人類做題的要求,未正確理解指令,則認為模型回答錯誤。 )
由于此次為SuperCLUE首次全自動測評,為了謹慎起見,全部答案事后已由多位人類進行交叉復核,與自動測評結(jié)果基本一致。
人類基準測評
針對于基礎(chǔ)能力和中文特性題目,會有三位獨立的人類測評員根據(jù)題目做答。人類測評結(jié)果,采用多數(shù)投票方式進行匯總,作為人類基準分數(shù)。
實驗分析
人類與模型的對比
從人類測評角度看,基礎(chǔ)能力(98%)+中文特性(95%),都達到了非常高的水平。除GPT-4外,人類準確率大幅超過了其他的大模型(如在基礎(chǔ)能力上超過其他模型20多個百分點)。AI雖然進展很快,但人類還是有相對優(yōu)勢的, 比如在計算方面,人類比最強模型GPT-4高出了30個百分點。
模型層面,宏觀分析
一句話點評:國際先進模型效果具有較大的領(lǐng)先性;同時國產(chǎn)GPT模型也有不俗的表現(xiàn),有差距但可追趕。
1)中文大模型的必要性
在國際上效果非常棒的Vicuna-13B模型,在中文領(lǐng)域的效果是眾多模型中比較一般的模型(排名靠后)。而國內(nèi)研發(fā)的大模型或在中文任務(wù)上進行訓練后的模型,都大幅超過了Vicuna-13B的效果,比如星火認知大模型在總分上超過了 Vicuna-13B 20個百分點,并且BELLE-13B(基于LLaMA并在中文上訓練和微調(diào)過的模型)的總分也超過了 Vicuna-13B 10多個百分點。
2) 國內(nèi)大模型與OpenAI GPT之間的差距較大,但在逐漸逼近
可以看到在本次SuperCLUE上效果最好的國內(nèi)模型,星火認知大模型,與GPT-4相比有23個百分點的差距,與gpt-3.5-turbo在總分上也有13個百分點的差距。但是我們更應(yīng)該看到, 不斷涌現(xiàn)和迭代的國內(nèi)大模型也在逐步地縮小與OpenAI GPT模型模型的差距。
3) GPT-3.5-turbo與GPT-4之間也有明顯差距
比如,GPT-4在所有的參與測評的模型中是獨一檔的存在,超過了gpt-3.5-turbo近10個百分點。它在邏輯推理能力、生成與創(chuàng)作能力方面,遠遠優(yōu)于其他模型(超過其他模型20個百分點或以上)。
能力角度分析
1) 當前模型在基礎(chǔ)能力普遍表現(xiàn)不錯,但中文特性、專業(yè)能力還比較差。
說明當前國內(nèi)大模型已經(jīng)有不錯的基礎(chǔ)(60-70%),但在專業(yè)領(lǐng)域、中文任務(wù)上表現(xiàn)一般(如30-60%直接),說明在專業(yè)領(lǐng)域或中文任務(wù)上還需要繼續(xù)努力,或者說進行針對性的訓練。
2)當前模型通常在邏輯推理、計算方面能力較差。
除GPT-4外,其他模型多數(shù)在這兩項能力通常在30-50分之間。
3)角色模擬,AI模型比較擅長。這方面可以是非常有用的??梢宰孉I根據(jù)場景和角色設(shè)定幫忙人類來完成多種不同的任務(wù),從市場營銷策劃、心理咨詢、客戶服務(wù)、到提供創(chuàng)意或想法等。
國內(nèi)大模型簡評
本次測評中,國內(nèi)大模型中近期發(fā)布的星火認知大模型最好,MiniMax模型也有不錯表現(xiàn)。
SuperCLUE的不足與局限
基礎(chǔ)能力、中文特性能力:雖然每一部分都包含了10類子能力,但這兩個能力的總數(shù)據(jù)量比較少,可能存在需要擴充數(shù)據(jù)集的問題。
選取模型的不完全:我們測試了9個模型,但還存在著更多的可用中文大模型。需要后續(xù)進一步添加并測試;有的模型由于沒有廣泛對外提供服務(wù),我們沒能獲取到可用的測試版本。
選取的能力范圍:我們盡可能的全面、綜合衡量模型的多維度能力,但是可能有一些模型能力沒有在我們的考察范圍內(nèi)。后續(xù)也存在擴大考察范圍的可能。
SuperCLUE基準計劃按照月度進行更新 ,會納入更多可用中文大模型,歡迎大模型研發(fā)機構(gòu)聯(lián)系與交流; 數(shù)據(jù)集和進一步信息計劃在下一次更新時公開,敬請期待。
上一篇:三十年 孟晚舟走向臺前