香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

中文通用大模型評測基準發(fā)布 從三個不同維度進行評價

中文通用大模型綜合性評測基準SuperCLUE正式發(fā)布。

SuperCLUE: A Benchmark for Foundation Models in Chinese

SuperCLUE是什么

中文通用大模型基準(SuperCLUE),是針對中文可用的通用大模型的一個測評基準。

它主要回答的問題是:在當前通用大模型大力發(fā)展的情況下,中文大模型的效果情況。包括但不限于:這些模型不同任務(wù)的效果情況、相較于國際上的代表性模型做到了什么程度、 這些模型與人類的效果對比如何?

它嘗試在一系列國內(nèi)外代表性的模型上使用多個維度能力進行測試。SuperCLUE是中文語言理解測評基準(CLUE)在通用人工智能時代的進一步發(fā)展。

Github地址:https://github.com/CLUEbenchmark/SuperCLUE

SuperCLUE評測榜單

榜單由三部分組成:總榜單、基礎(chǔ)能力榜單、中文特性榜單

排行榜會定期更新,可訪問:www.CLUEbenchmarks.com/superclue.html

總榜單

基礎(chǔ)能力榜單

中文特性榜單

SuperCLUE的構(gòu)成與特點

著眼于綜合評價大模型的能力,使其能全面地測試大模型的效果,又能考察模型在中文上特有任務(wù)的理解和積累。我們對能力進行了劃分, SuperCLUE從三個不同的維度評價模型的能力:基礎(chǔ)能力、專業(yè)能力和中文特性能力。

基礎(chǔ)能力:

包括了常見的有代表性的模型能力,如語義理解、對話、邏輯推理、角色模擬、代碼、生成與創(chuàng)作等10項能力。

專業(yè)能力:

包括了中學、大學與專業(yè)考試,涵蓋了從數(shù)學、物理、地理到社會科學等50多項能力。

中文特性能力:

針對有中文特點的任務(wù),包括了中文成語、詩歌、文學、字形等10項多種能力。

SuperCLUE的特點

多個維度能力考察(3大類70+子能力):

從三個不同角度對中文大模型進行測試,以考察模型的綜合能力;并且每一個子能力又含有十項或以上不同的細分能力。

自動化測評(一鍵測評):

通過自動化測評方式以相對客觀形式測試不同模型的效果,可以一鍵對大模型進行測評。

廣泛的代表性模型(9個模型):

選取了多個國內(nèi)外有代表性的可用的模型進行測評,以反映國內(nèi)大模型的發(fā)展現(xiàn)狀并了解與國際領(lǐng)先模型的差距或相對優(yōu)劣勢。

人類基準:

在通用人工智能發(fā)展的情況下,也提供了模型相對于人類效果的指標對比。

SuperCLUE的數(shù)據(jù)集

1.基礎(chǔ)能力(10項能力):語義理解、生成與創(chuàng)作、閑聊、對話、百科與知識、邏輯與推理、計算能力、代碼、角色模擬、安全

示例:

--語義理解:

兩個男人正常交談,其中一個男人夸贊對方辦事能力強,對方回答“哪里,哪里”。這里的“哪里,哪里”是什么意思?

A. 講話十分含糊不清。

B. 要求說出具體的優(yōu)點。

C. 表達自己的謙虛。

D. 挑釁對方。

--邏輯與推理:

小明的妻子生了一對雙胞胎。以下哪個推論是正確的?

A. 小明家里一共有三個孩子。

B. 小明家里一共有兩個孩子。

C. 小明家里既有男孩子也有女孩子。

D. 無法確定小明家里孩子的具體情況。

2. 中文特性能力(10項能力):成語、詩詞、文學、字義理解、漢語句法分析、漢字字形和拼音理解、歇后語和諺語、對聯(lián)、方言、古文

示例:

--成語:

選出下列句子中成語使用錯誤的一項

A. 這個項目時間緊任務(wù)重,大家都在馬不停蹄地奔波勞碌。

B. 他常??谑切姆?,讓人難以相信他說的話。

C. 兩人是同學三年,一直保持著良好的關(guān)系,相互尊重、相敬如賓。

D. 當?shù)赝话l(fā)大火,整個村莊都雞犬不寧,局勢十分危急。

--文學:

下列有關(guān)名著的表述有誤的一項是

A. 《紅樓夢》是中國古代小說中的巔峰之作,以其瑰麗的語言和豐富的人物形象而聞名于世。

B. 《西游記》是中國古代四大名著之一,講述了哪吒等人歷經(jīng)九九八十一難,最終取得真經(jīng)的故事。

C. 《孔乙己》是魯迅的代表作之一,以其深刻的社會洞察力和優(yōu)美的文學風格而廣受好評。

D. 《圍城》是錢鐘書的代表作之一,以其獨特的文學語言和深刻的社會洞察力而成為現(xiàn)代中國文學的經(jīng)典之作。

3. 專業(yè)能力(50+能力):抽象代數(shù)、天文學、臨床知識、大學生物學、大學計算機科學、大學數(shù)學、高中化學、高中物理、機器學習、營養(yǎng)、專業(yè)會計、職業(yè)心理學等

示例:

--物理:

以下物理常識題目,哪一個是錯誤的?

A. 在自然環(huán)境下,聲音在固體中傳播速度最快。

B. 牛頓第一定律:一個物體如果不受力作用,將保持靜止或勻速直線運動的狀態(tài)。

C. 牛頓第三定律:對于每個作用力,都有一個相等而反向的反作用力。

D. 聲音在空氣中的傳播速度為1000m/s。

--天文學:

以下天文學常識題目,哪一個是錯誤的?

A. 太陽系是指由太陽和圍繞著它運行的八大行星、矮行星、衛(wèi)星、小行星帶和彗星組成的一個行星系統(tǒng)。

B. 衛(wèi)星是指繞行星或其他天體運動的天體。

C. 彗星是指太陽系中一種較小的天體,其核心由冰和塵埃組成。

D. 按一般的天體歸類方法,月球?qū)儆谛行恰?/p>

SuperCLUE全自動測評過程

1、統(tǒng)一prompt: 針對每一個題目,構(gòu)造了統(tǒng)一的prompt供模型和人類使用。

2、預測: 系統(tǒng)使用模型進行預測,要求模型選取ABCD中一個唯一的選項。

3、打分: 如果模型的回答不是標準的答案,而是一段文字,系統(tǒng)會采取特定的策略自動提取出模型的答案。該策略結(jié)合模型的表現(xiàn)進行優(yōu)化和完善。

( 注:當無法提取有效答案的時候,則表明模型沒有按照人類做題的要求,未正確理解指令,則認為模型回答錯誤。 )

由于此次為SuperCLUE首次全自動測評,為了謹慎起見,全部答案事后已由多位人類進行交叉復核,與自動測評結(jié)果基本一致。

人類基準測評

針對于基礎(chǔ)能力和中文特性題目,會有三位獨立的人類測評員根據(jù)題目做答。人類測評結(jié)果,采用多數(shù)投票方式進行匯總,作為人類基準分數(shù)。

實驗分析

人類與模型的對比

從人類測評角度看,基礎(chǔ)能力(98%)+中文特性(95%),都達到了非常高的水平。除GPT-4外,人類準確率大幅超過了其他的大模型(如在基礎(chǔ)能力上超過其他模型20多個百分點)。AI雖然進展很快,但人類還是有相對優(yōu)勢的, 比如在計算方面,人類比最強模型GPT-4高出了30個百分點。

模型層面,宏觀分析

一句話點評:國際先進模型效果具有較大的領(lǐng)先性;同時國產(chǎn)GPT模型也有不俗的表現(xiàn),有差距但可追趕。

1)中文大模型的必要性

在國際上效果非常棒的Vicuna-13B模型,在中文領(lǐng)域的效果是眾多模型中比較一般的模型(排名靠后)。而國內(nèi)研發(fā)的大模型或在中文任務(wù)上進行訓練后的模型,都大幅超過了Vicuna-13B的效果,比如星火認知大模型在總分上超過了 Vicuna-13B 20個百分點,并且BELLE-13B(基于LLaMA并在中文上訓練和微調(diào)過的模型)的總分也超過了 Vicuna-13B 10多個百分點。

2) 國內(nèi)大模型與OpenAI GPT之間的差距較大,但在逐漸逼近

可以看到在本次SuperCLUE上效果最好的國內(nèi)模型,星火認知大模型,與GPT-4相比有23個百分點的差距,與gpt-3.5-turbo在總分上也有13個百分點的差距。但是我們更應(yīng)該看到, 不斷涌現(xiàn)和迭代的國內(nèi)大模型也在逐步地縮小與OpenAI GPT模型模型的差距。

3) GPT-3.5-turbo與GPT-4之間也有明顯差距

比如,GPT-4在所有的參與測評的模型中是獨一檔的存在,超過了gpt-3.5-turbo近10個百分點。它在邏輯推理能力、生成與創(chuàng)作能力方面,遠遠優(yōu)于其他模型(超過其他模型20個百分點或以上)。

能力角度分析

1) 當前模型在基礎(chǔ)能力普遍表現(xiàn)不錯,但中文特性、專業(yè)能力還比較差。

說明當前國內(nèi)大模型已經(jīng)有不錯的基礎(chǔ)(60-70%),但在專業(yè)領(lǐng)域、中文任務(wù)上表現(xiàn)一般(如30-60%直接),說明在專業(yè)領(lǐng)域或中文任務(wù)上還需要繼續(xù)努力,或者說進行針對性的訓練。

2)當前模型通常在邏輯推理、計算方面能力較差。

除GPT-4外,其他模型多數(shù)在這兩項能力通常在30-50分之間。

3)角色模擬,AI模型比較擅長。這方面可以是非常有用的??梢宰孉I根據(jù)場景和角色設(shè)定幫忙人類來完成多種不同的任務(wù),從市場營銷策劃、心理咨詢、客戶服務(wù)、到提供創(chuàng)意或想法等。

國內(nèi)大模型簡評

本次測評中,國內(nèi)大模型中近期發(fā)布的星火認知大模型最好,MiniMax模型也有不錯表現(xiàn)。

SuperCLUE的不足與局限

基礎(chǔ)能力、中文特性能力:雖然每一部分都包含了10類子能力,但這兩個能力的總數(shù)據(jù)量比較少,可能存在需要擴充數(shù)據(jù)集的問題。

選取模型的不完全:我們測試了9個模型,但還存在著更多的可用中文大模型。需要后續(xù)進一步添加并測試;有的模型由于沒有廣泛對外提供服務(wù),我們沒能獲取到可用的測試版本。

選取的能力范圍:我們盡可能的全面、綜合衡量模型的多維度能力,但是可能有一些模型能力沒有在我們的考察范圍內(nèi)。后續(xù)也存在擴大考察范圍的可能。

SuperCLUE基準計劃按照月度進行更新 ,會納入更多可用中文大模型,歡迎大模型研發(fā)機構(gòu)聯(lián)系與交流; 數(shù)據(jù)集和進一步信息計劃在下一次更新時公開,敬請期待。


相關(guān)內(nèi)容