精品欧美成人高清视频在线观看,美女视频黄频a免费高清不卡软件,成人午夜精品网站在线观看

中文通用大模型評(píng)測(cè)基準(zhǔn)發(fā)布從三個(gè)不同維度進(jìn)行評(píng)價(jià)

CLUE中文語言理解測(cè)

2023-05-09 15:55:31

中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)SuperCLUE正式發(fā)布。

SuperCLUE: A Benchmark for Foundation Models in Chinese

SuperCLUE是什么

中文通用大模型基準(zhǔn)（SuperCLUE），是針對(duì)中文可用的通用大模型的一個(gè)測(cè)評(píng)基準(zhǔn)。

它主要回答的問題是：在當(dāng)前通用大模型大力發(fā)展的情況下，中文大模型的效果情況。包括但不限于：這些模型不同任務(wù)的效果情況、相較于國際上的代表性模型做到了什么程度、這些模型與人類的效果對(duì)比如何？

它嘗試在一系列國內(nèi)外代表性的模型上使用多個(gè)維度能力進(jìn)行測(cè)試。SuperCLUE是中文語言理解測(cè)評(píng)基準(zhǔn)（CLUE）在通用人工智能時(shí)代的進(jìn)一步發(fā)展。

Github地址：https://github.com/CLUEbenchmark/SuperCLUE

SuperCLUE評(píng)測(cè)榜單

榜單由三部分組成：總榜單、基礎(chǔ)能力榜單、中文特性榜單

排行榜會(huì)定期更新，可訪問：www.CLUEbenchmarks.com/superclue.html

總榜單

基礎(chǔ)能力榜單

中文特性榜單

SuperCLUE的構(gòu)成與特點(diǎn)

著眼于綜合評(píng)價(jià)大模型的能力，使其能全面地測(cè)試大模型的效果，又能考察模型在中文上特有任務(wù)的理解和積累。我們對(duì)能力進(jìn)行了劃分， SuperCLUE從三個(gè)不同的維度評(píng)價(jià)模型的能力：基礎(chǔ)能力、專業(yè)能力和中文特性能力。

基礎(chǔ)能力:

包括了常見的有代表性的模型能力，如語義理解、對(duì)話、邏輯推理、角色模擬、代碼、生成與創(chuàng)作等10項(xiàng)能力。

專業(yè)能力:

包括了中學(xué)、大學(xué)與專業(yè)考試，涵蓋了從數(shù)學(xué)、物理、地理到社會(huì)科學(xué)等50多項(xiàng)能力。

中文特性能力:

針對(duì)有中文特點(diǎn)的任務(wù)，包括了中文成語、詩歌、文學(xué)、字形等10項(xiàng)多種能力。

SuperCLUE的特點(diǎn)

多個(gè)維度能力考察（3大類70+子能力）：

從三個(gè)不同角度對(duì)中文大模型進(jìn)行測(cè)試，以考察模型的綜合能力；并且每一個(gè)子能力又含有十項(xiàng)或以上不同的細(xì)分能力。

自動(dòng)化測(cè)評(píng)（一鍵測(cè)評(píng)）：

通過自動(dòng)化測(cè)評(píng)方式以相對(duì)客觀形式測(cè)試不同模型的效果，可以一鍵對(duì)大模型進(jìn)行測(cè)評(píng)。

廣泛的代表性模型（9個(gè)模型）：

選取了多個(gè)國內(nèi)外有代表性的可用的模型進(jìn)行測(cè)評(píng)，以反映國內(nèi)大模型的發(fā)展現(xiàn)狀并了解與國際領(lǐng)先模型的差距或相對(duì)優(yōu)劣勢(shì)。

人類基準(zhǔn)：

在通用人工智能發(fā)展的情況下，也提供了模型相對(duì)于人類效果的指標(biāo)對(duì)比。

SuperCLUE的數(shù)據(jù)集

1.基礎(chǔ)能力（10項(xiàng)能力）：語義理解、生成與創(chuàng)作、閑聊、對(duì)話、百科與知識(shí)、邏輯與推理、計(jì)算能力、代碼、角色模擬、安全

示例：

--語義理解：

兩個(gè)男人正常交談，其中一個(gè)男人夸贊對(duì)方辦事能力強(qiáng)，對(duì)方回答“哪里，哪里”。這里的“哪里，哪里”是什么意思？

A. 講話十分含糊不清。

B. 要求說出具體的優(yōu)點(diǎn)。

C. 表達(dá)自己的謙虛。

D. 挑釁對(duì)方。

--邏輯與推理：

小明的妻子生了一對(duì)雙胞胎。以下哪個(gè)推論是正確的？

A. 小明家里一共有三個(gè)孩子。

B. 小明家里一共有兩個(gè)孩子。

C. 小明家里既有男孩子也有女孩子。

D. 無法確定小明家里孩子的具體情況。

2. 中文特性能力（10項(xiàng)能力）：成語、詩詞、文學(xué)、字義理解、漢語句法分析、漢字字形和拼音理解、歇后語和諺語、對(duì)聯(lián)、方言、古文

示例：

--成語：

選出下列句子中成語使用錯(cuò)誤的一項(xiàng)

A. 這個(gè)項(xiàng)目時(shí)間緊任務(wù)重，大家都在馬不停蹄地奔波勞碌。

B. 他常?？谑切姆牵屓穗y以相信他說的話。

C. 兩人是同學(xué)三年，一直保持著良好的關(guān)系，相互尊重、相敬如賓。

D. 當(dāng)?shù)赝话l(fā)大火，整個(gè)村莊都雞犬不寧，局勢(shì)十分危急。

--文學(xué)：

下列有關(guān)名著的表述有誤的一項(xiàng)是

A. 《紅樓夢(mèng)》是中國古代小說中的巔峰之作，以其瑰麗的語言和豐富的人物形象而聞名于世。

B. 《西游記》是中國古代四大名著之一，講述了哪吒等人歷經(jīng)九九八十一難，最終取得真經(jīng)的故事。

C. 《孔乙己》是魯迅的代表作之一，以其深刻的社會(huì)洞察力和優(yōu)美的文學(xué)風(fēng)格而廣受好評(píng)。

D. 《圍城》是錢鐘書的代表作之一，以其獨(dú)特的文學(xué)語言和深刻的社會(huì)洞察力而成為現(xiàn)代中國文學(xué)的經(jīng)典之作。

3. 專業(yè)能力（50+能力）：抽象代數(shù)、天文學(xué)、臨床知識(shí)、大學(xué)生物學(xué)、大學(xué)計(jì)算機(jī)科學(xué)、大學(xué)數(shù)學(xué)、高中化學(xué)、高中物理、機(jī)器學(xué)習(xí)、營(yíng)養(yǎng)、專業(yè)會(huì)計(jì)、職業(yè)心理學(xué)等

示例：

--物理：

以下物理常識(shí)題目，哪一個(gè)是錯(cuò)誤的?

A. 在自然環(huán)境下，聲音在固體中傳播速度最快。

B. 牛頓第一定律：一個(gè)物體如果不受力作用，將保持靜止或勻速直線運(yùn)動(dòng)的狀態(tài)。

C. 牛頓第三定律：對(duì)于每個(gè)作用力，都有一個(gè)相等而反向的反作用力。

D. 聲音在空氣中的傳播速度為1000m/s。

--天文學(xué)：

以下天文學(xué)常識(shí)題目，哪一個(gè)是錯(cuò)誤的？

A. 太陽系是指由太陽和圍繞著它運(yùn)行的八大行星、矮行星、衛(wèi)星、小行星帶和彗星組成的一個(gè)行星系統(tǒng)。

B. 衛(wèi)星是指繞行星或其他天體運(yùn)動(dòng)的天體。

C. 彗星是指太陽系中一種較小的天體，其核心由冰和塵埃組成。

D. 按一般的天體歸類方法，月球?qū)儆谛行恰?/p>

SuperCLUE全自動(dòng)測(cè)評(píng)過程

1、統(tǒng)一prompt：針對(duì)每一個(gè)題目，構(gòu)造了統(tǒng)一的prompt供模型和人類使用。

2、預(yù)測(cè)：系統(tǒng)使用模型進(jìn)行預(yù)測(cè)，要求模型選取ABCD中一個(gè)唯一的選項(xiàng)。

3、打分：如果模型的回答不是標(biāo)準(zhǔn)的答案，而是一段文字，系統(tǒng)會(huì)采取特定的策略自動(dòng)提取出模型的答案。該策略結(jié)合模型的表現(xiàn)進(jìn)行優(yōu)化和完善。

（注：當(dāng)無法提取有效答案的時(shí)候，則表明模型沒有按照人類做題的要求，未正確理解指令，則認(rèn)為模型回答錯(cuò)誤。）

由于此次為SuperCLUE首次全自動(dòng)測(cè)評(píng)，為了謹(jǐn)慎起見，全部答案事后已由多位人類進(jìn)行交叉復(fù)核，與自動(dòng)測(cè)評(píng)結(jié)果基本一致。

人類基準(zhǔn)測(cè)評(píng)

針對(duì)于基礎(chǔ)能力和中文特性題目，會(huì)有三位獨(dú)立的人類測(cè)評(píng)員根據(jù)題目做答。人類測(cè)評(píng)結(jié)果，采用多數(shù)投票方式進(jìn)行匯總，作為人類基準(zhǔn)分?jǐn)?shù)。

實(shí)驗(yàn)分析

人類與模型的對(duì)比

從人類測(cè)評(píng)角度看，基礎(chǔ)能力（98%）+中文特性（95%），都達(dá)到了非常高的水平。除GPT-4外，人類準(zhǔn)確率大幅超過了其他的大模型（如在基礎(chǔ)能力上超過其他模型20多個(gè)百分點(diǎn)）。AI雖然進(jìn)展很快，但人類還是有相對(duì)優(yōu)勢(shì)的，比如在計(jì)算方面，人類比最強(qiáng)模型GPT-4高出了30個(gè)百分點(diǎn)。

模型層面，宏觀分析

一句話點(diǎn)評(píng)：國際先進(jìn)模型效果具有較大的領(lǐng)先性；同時(shí)國產(chǎn)GPT模型也有不俗的表現(xiàn)，有差距但可追趕。

1）中文大模型的必要性

在國際上效果非常棒的Vicuna-13B模型，在中文領(lǐng)域的效果是眾多模型中比較一般的模型（排名靠后）。而國內(nèi)研發(fā)的大模型或在中文任務(wù)上進(jìn)行訓(xùn)練后的模型，都大幅超過了Vicuna-13B的效果，比如星火認(rèn)知大模型在總分上超過了 Vicuna-13B 20個(gè)百分點(diǎn)，并且BELLE-13B（基于LLaMA并在中文上訓(xùn)練和微調(diào)過的模型）的總分也超過了 Vicuna-13B 10多個(gè)百分點(diǎn)。

2）國內(nèi)大模型與OpenAI GPT之間的差距較大，但在逐漸逼近

可以看到在本次SuperCLUE上效果最好的國內(nèi)模型，星火認(rèn)知大模型，與GPT-4相比有23個(gè)百分點(diǎn)的差距，與gpt-3.5-turbo在總分上也有13個(gè)百分點(diǎn)的差距。但是我們更應(yīng)該看到，不斷涌現(xiàn)和迭代的國內(nèi)大模型也在逐步地縮小與OpenAI GPT模型模型的差距。

3） GPT-3.5-turbo與GPT-4之間也有明顯差距

比如，GPT-4在所有的參與測(cè)評(píng)的模型中是獨(dú)一檔的存在，超過了gpt-3.5-turbo近10個(gè)百分點(diǎn)。它在邏輯推理能力、生成與創(chuàng)作能力方面，遠(yuǎn)遠(yuǎn)優(yōu)于其他模型（超過其他模型20個(gè)百分點(diǎn)或以上）。

能力角度分析

1）當(dāng)前模型在基礎(chǔ)能力普遍表現(xiàn)不錯(cuò)，但中文特性、專業(yè)能力還比較差。

說明當(dāng)前國內(nèi)大模型已經(jīng)有不錯(cuò)的基礎(chǔ)（60-70%），但在專業(yè)領(lǐng)域、中文任務(wù)上表現(xiàn)一般（如30-60%直接），說明在專業(yè)領(lǐng)域或中文任務(wù)上還需要繼續(xù)努力，或者說進(jìn)行針對(duì)性的訓(xùn)練。

2）當(dāng)前模型通常在邏輯推理、計(jì)算方面能力較差。

除GPT-4外，其他模型多數(shù)在這兩項(xiàng)能力通常在30-50分之間。

3）角色模擬，AI模型比較擅長(zhǎng)。這方面可以是非常有用的?？梢宰孉I根據(jù)場(chǎng)景和角色設(shè)定幫忙人類來完成多種不同的任務(wù)，從市場(chǎng)營(yíng)銷策劃、心理咨詢、客戶服務(wù)、到提供創(chuàng)意或想法等。

國內(nèi)大模型簡(jiǎn)評(píng)

本次測(cè)評(píng)中，國內(nèi)大模型中近期發(fā)布的星火認(rèn)知大模型最好，MiniMax模型也有不錯(cuò)表現(xiàn)。

SuperCLUE的不足與局限

基礎(chǔ)能力、中文特性能力：雖然每一部分都包含了10類子能力，但這兩個(gè)能力的總數(shù)據(jù)量比較少，可能存在需要擴(kuò)充數(shù)據(jù)集的問題。

選取模型的不完全：我們測(cè)試了9個(gè)模型，但還存在著更多的可用中文大模型。需要后續(xù)進(jìn)一步添加并測(cè)試；有的模型由于沒有廣泛對(duì)外提供服務(wù)，我們沒能獲取到可用的測(cè)試版本。

選取的能力范圍：我們盡可能的全面、綜合衡量模型的多維度能力，但是可能有一些模型能力沒有在我們的考察范圍內(nèi)。后續(xù)也存在擴(kuò)大考察范圍的可能。

SuperCLUE基準(zhǔn)計(jì)劃按照月度進(jìn)行更新，會(huì)納入更多可用中文大模型，歡迎大模型研發(fā)機(jī)構(gòu)聯(lián)系與交流；數(shù)據(jù)集和進(jìn)一步信息計(jì)劃在下一次更新時(shí)公開，敬請(qǐng)期待。

上一篇：三十年孟晚舟走向臺(tái)前

下一篇：瘋狂的大模型：蹭熱點(diǎn)的多真能打的鳳毛麟角

香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放