GPT-4太強(qiáng),甚至已經(jīng)化身“主考官”了!
給其他市面上主流的大模型打分,結(jié)果自己給了自己最高分:
95.5。(好,給自己留點(diǎn)努力的空間)
不過隨后就沒有上90的選手了。就連它的“前輩”ChatGPT(GPT-3.5),它也只給了89.1分。
隨后依次是號(hào)稱最強(qiáng)競(jìng)品的Claude、谷歌Bard、UC伯克利出品的小羊駝Vicuna-13B,以及清華系開源模型ChatGLM-6B。
話不多說,速來圍觀GPT-4到底是如何評(píng)測(cè)的?
10項(xiàng)能力測(cè)評(píng)
首先,來看出題人GPT-4到底想考察語言模型的哪些能力。
要求出題盡量全面,考察模型能力的不同方面,并且足夠難,使得不同水平的模型有足夠的區(qū)分。
于是GPT-4直接出了10道題,而且還分別告知了出題理由——具體考察了大模型什么能力,可以說是很全面了。
(第一個(gè)問題GPT-4后面做了替換)
問題1:請(qǐng)簡要概述小說《殺死一只知更鳥》的情節(jié),并指出其中的主要主題。
理由:這個(gè)問題測(cè)試了模型理解和總結(jié)復(fù)雜敘事結(jié)構(gòu)的能力,以及對(duì)文學(xué)作品中的主題和主旨的理解。
問題2:描述傅里葉變換的主要數(shù)學(xué)原理,并用一個(gè)簡單的例子說明其應(yīng)用。
理由:這個(gè)問題測(cè)試了模型以簡單、易懂的方式理解和解釋復(fù)雜概念的能力。
問題3:以“春天”為主題創(chuàng)作一首押韻的詩歌
理由:這個(gè)問題測(cè)試了模型的創(chuàng)造性和藝術(shù)能力,以及理解主題和生成具有上下文關(guān)聯(lián)的內(nèi)容的能力。
問題4:指出資本主義和社會(huì)主義之間的主要區(qū)別,并舉例說明哪些國家在歷史上分別遵循了這兩種經(jīng)濟(jì)體系?
理由:這個(gè)問題測(cè)試了模型理解和總結(jié)復(fù)雜社會(huì)和政治概念的能力,并提供事實(shí)性的歷史背景。
問題5:能否為解決筆記本電腦上的Wi-Fi連接問題提供一個(gè)詳細(xì)的、分步驟的故障排除過程?
理由:這個(gè)問題測(cè)試了模型在提供實(shí)用的解決問題建議和理解技術(shù)概念方面的能力。
問題6:根據(jù)當(dāng)前的趨勢(shì)和技術(shù)發(fā)展,我們可以預(yù)期在未來十年里會(huì)有哪些重大進(jìn)步?
理由:這個(gè)問題測(cè)試了模型從現(xiàn)有知識(shí)和趨勢(shì)中推斷和預(yù)測(cè)的能力
問題7:請(qǐng)檢查以下代碼片段:
找出任何可以優(yōu)化以提高性能的部分,并提出如何提高代碼可讀性的建議。
理由:這個(gè)問題測(cè)試了模型在編程及軟件開發(fā)中理解、分析代碼并提供改進(jìn)建議的能力。
問題8:簡要討論與人工智能相關(guān)的倫理問題,特別是在個(gè)人隱私和就業(yè)方面。提供例子以證明您的觀點(diǎn)。
理由:這個(gè)問題測(cè)試了模型討論倫理問題和理解技術(shù)進(jìn)步可能帶來的后果的能力。
問題9:描述植物光合作用的過程,詳細(xì)說明其中涉及的關(guān)鍵步驟和組成。
理由:這個(gè)問題測(cè)試了模型準(zhǔn)確、深入地理解和解釋復(fù)雜科學(xué)過程的能力。
問題10:給定一段包含諷刺或幽默的文本:
“哦,太好了,又一個(gè)據(jù)說能理解諷刺的語言模型。我敢肯定這將是一次扣人心弦的對(duì)話?!?/p>
(Oh great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.)
你能識(shí)別出諷刺或幽默的元素,并提供一個(gè)適當(dāng)?shù)幕貞?yīng)嗎?
理由:這個(gè)問題測(cè)試了模型理解微妙語言 (如諷刺或幽默)的能力,這是自然語言理解的一個(gè)重要方面。
可以看到GPT-4的出題范圍,基本上涵蓋了文字、數(shù)學(xué)、詩歌、經(jīng)濟(jì)、實(shí)踐、技術(shù)、代碼、道德倫理、科學(xué),語言等各個(gè)方面。
隨后針對(duì)不同問題,我們又讓GPT-4生成了相應(yīng)的評(píng)分標(biāo)準(zhǔn)(0-100)。
題目有了,評(píng)分標(biāo)準(zhǔn)也有了。
既然如此,那就來看看這幾個(gè)代表大模型的實(shí)力如何?
GPT-4:Claude僅次于ChatGPT
首先有請(qǐng)考生登場(chǎng):
谷歌Bard、最早也是最強(qiáng)競(jìng)品Claude、UC伯克利小羊駝Vicuna-13B、清華系開源模型ChatGLM-6B。
ChatGPT與GPT-4自己,也被要求回答這些問題,然后由GPT-4依據(jù)前面的評(píng)分標(biāo)準(zhǔn)盲評(píng)。
首先來看這道題:
請(qǐng)簡要概述小說《殺死一只知更鳥》的情節(jié),并指出其中的主要主題。
這第一題在所有問題中算是比較簡單的,首先讓我們看看bard的回答。
總結(jié):《殺死一只知更鳥》是哈珀·李1960年出版的一部小說,講述了在美國大蕭條時(shí)期阿拉巴馬州一個(gè)虛構(gòu)的小鎮(zhèn)上,一位名叫阿提克斯·芬奇的律師為一名被錯(cuò)誤指控的黑人辯護(hù)的故事。小說探討了種族主義、勇氣、捍衛(wèi)正義的重要性以及失去天真的主題。主人公阿提克斯·芬奇勇敢地為被冤枉的黑人站出來,成為了他的孩子們心目中的榜樣。通過這部小說,孩子們認(rèn)識(shí)到世界并非總是公平的,但仍有善良的人存在,我們應(yīng)該永不放棄希望。
結(jié)果GPT-4對(duì)這個(gè)回答評(píng)價(jià)很高,并給出了100分的高分:
所提供的回答清晰準(zhǔn)確地概括了《殺死一只知更鳥》的情節(jié),并指出了主要主題。情節(jié)概括簡潔明了,捕捉到了故事的核心元素。主要主題解釋得很好,它們與小說的關(guān)聯(lián)顯而易見。
得分:100/100
同樣的問題給到GPT-4的回答也拿到了滿分,而ChatGPT,Claude,Vicuna的回答分?jǐn)?shù)分別為95,96,90,可以說是在統(tǒng)一水準(zhǔn)上,都提供了清晰準(zhǔn)確的情節(jié)概括,涉及到故事中的主要事件和人物,同時(shí)也捕捉到了小說中的主題?;卮鸷啙嵡覘l理清晰,使得對(duì)于可能不熟悉故事的讀者也容易理解。
相比之下,GPT-4認(rèn)為ChatGLM給出的答案并不盡如人意。
GPT-4認(rèn)為相關(guān)情節(jié)和人物存在錯(cuò)誤信息。這個(gè)概括并沒有準(zhǔn)確地反映小說的內(nèi)容,部分提到的主題與故事無關(guān),因此只給了20分。
再來看看各個(gè)模型在代碼方面的能力,這也是目前評(píng)判大模型能力的重要標(biāo)準(zhǔn)——
請(qǐng)檢查以下代碼片段,找出任何可以優(yōu)化以提高性能的部分,并提出如何提高代碼可讀性的建議。
在這一題上GPT-4仍然拿到了95的高分:
可以看到,GPT-4首先分析了這段代碼的用途和實(shí)現(xiàn)方式,隨后提出了一些提高代碼性能和可讀性的建議。不僅如此,GPT-4還給出了修改后的代碼,可以說是答的非常完善了:
相比之下,其他模型這一題上的表現(xiàn)差距比較明顯。
ChatGPT的回答同樣捕捉到了使用ThreadPoolExecutor來管理線程的優(yōu)化建議,但在提高可讀性方面犯了一個(gè)小錯(cuò)誤,被GPT-4抓到,因此打了85分。
GPT-4評(píng)價(jià),以上回答識(shí)別了三個(gè)改進(jìn)代碼的機(jī)會(huì):
使用ThreadPoolExecutor更好地管理線程。
通過將WorkerThread類轉(zhuǎn)換為可調(diào)用對(duì)象來簡化它。
利用f-strings提高可讀性(但原始代碼也使用了 f-strings,而回答錯(cuò)誤地聲稱代碼使用了舊的%字符串格式化方法)。
但它錯(cuò)誤地以為原代碼使用了%的字符串格式表示方法,故而打分:85/100。
Bard和Vicuna在這題上表現(xiàn)也被ChatGPT拉開了差距,分別獲得了70和75分。
其中Bard的回答,乍一看像模像樣的,甚至信息量比GPT-4和ChatGPT還大不少,但實(shí)際上里面參雜著不少錯(cuò)誤。
GPT-4的評(píng)價(jià),以上回答提出了一些改進(jìn)性能的方法,但有部分是不成立的:
建議使用多進(jìn)程模塊而不是線程。然而,這個(gè)建議并不適用于給定的問題,因?yàn)閱栴}并不涉及CPU-bound任務(wù),而原始代碼使用線程是合適的。
為此還專門提供了具體的增強(qiáng)可讀性的建議:使用更具描述性的變量名;使用適當(dāng)?shù)目s進(jìn)和間距(盡管原始代碼已經(jīng)格式化得很好);使用注釋來解釋代碼等。
可以看到,GPT-4發(fā)現(xiàn)Bard的回答中有些不必要的改進(jìn)建議,相比之下ChatGPT犯的錯(cuò)誤更少。而Claude和ChatGLM兩個(gè)模型給出的答案在GPT-4看來就不太“及格”了。
讓我們看看Claude的答案:
首先從格式上說,Claude的回答就不夠清晰,可讀性低,GPT-4的評(píng)價(jià)如下:
該回答沒有找出任何性能改進(jìn)機(jī)會(huì),而且其對(duì)提高可讀性的建議大多不適用于原始代碼或者是錯(cuò)誤的(例如,建議使用全大寫字母表示類名)。
最終得分:50
再讓我們來看看這道考察模型識(shí)別幽默或諷刺含義的能力,GPT-4認(rèn)為這是自然語言理解的一個(gè)重要能力。
給定一段包含諷刺或幽默的文本:
“哦,太好了,又是一個(gè)據(jù)說能理解諷刺的語言模型。我敢肯定這將是一次扣人心弦的對(duì)話?!保ǎ∣h great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.)
你能識(shí)別出諷刺或幽默的元素,并提供一個(gè)適當(dāng)?shù)幕貞?yīng)嗎?
在這一題上,所有模型都都展示出了不錯(cuò)的理解能力,以及合格的應(yīng)對(duì)。首先讓我們看看“課代表”GPT-4的回答:
(我確實(shí)能識(shí)別出你提供的文本中的諷刺成分。諷刺之處在于 “Oh great” 和 “I’m sure this will be a riveting conversation” 這兩個(gè)短語,它們暗示著對(duì)語言模型理解諷刺和進(jìn)行有趣對(duì)話的能力表示懷疑。合適的回應(yīng):我欣賞你的幽默感!我會(huì)盡力使我們的對(duì)話充滿趣味和啟發(fā)性。請(qǐng)隨時(shí)向我提問,讓我們看看會(huì)發(fā)展成什么樣子!)
GPT-4的回答十分簡潔,還準(zhǔn)確識(shí)別了文本中的諷刺意味,并展示出隱藏含義的理解,回復(fù)也很恰當(dāng),保持了原文語氣,得分為95。
這一題上Claude的表現(xiàn)緊隨其后,超過了ChatGPT,僅比GPT-4低一分。
GPT-4高度肯定了Claude的回復(fù),還比較了跟自己的異同。
第一個(gè)回答(GPT-4)準(zhǔn)確地識(shí)別出諷刺,并提供了一個(gè)合適、禮貌、鼓勵(lì)的回復(fù),邀請(qǐng)進(jìn)行更多的對(duì)話。
第二個(gè)回應(yīng)也準(zhǔn)確地識(shí)別出諷刺,并提供了兩個(gè)與諷刺和幽默相呼應(yīng)的替代回應(yīng),同時(shí)解釋了用于創(chuàng)造諷刺和幽默的關(guān)鍵元素。第一個(gè)回應(yīng)更注重保持積極、引人入勝的語調(diào),而第二個(gè)回應(yīng)則以更俏皮的方式充分擁抱諷刺和幽默。
谷歌Bard:拒絕回答一道題
最終這幾個(gè)模型在10個(gè)問題上的綜合得分為:
GPT-4:(100 + 100 + 100 + 95 + 95 + 85 + 95 + 95 + 95 + 95) / 10 = 95.5
ChatGPT:(95 + 98 + 100 + 93 + 85 + 80 + 85 + 85 + 85 + 85) / 10 = 891 / 10 = 89.1
Claude:(96 + 94 + 95 + 92 + 86 + 82 + 50 + 95 + 88 + 94) / 10 = 87.2
Bard:(100 + 85 + 100 + 90 + 87 + 82 + 70 + 80 + 80) / 9 = 86
Vicuna-13B:(90 + 65 + 92 + 94 + 84 + 76 + 75 + 87 + 80 + 88)/10 = 83.1
ChatGLM-6B: (20 + 50 + 92 + 75 + 72 + 78 + 30 + 70 + 35 + 82) / 10 = 60.4
(Bard在第9題「描述植物光合作用的過程」上拒絕提供任何信息(As a language model, I’m not able to assist you with that.),因此就只算了9道題)
每道題上面的表現(xiàn)為:
可以看到,GPT-4是唯一得分超過90分的模型。
這和我們目前的認(rèn)知也是比較符合的,目前GPT-4的能力確實(shí)是獨(dú)一檔。
ChatGPT仍是GPT-4之下的領(lǐng)頭羊,只差一步就達(dá)到90分的門檻。Claude和Bard緊隨其后,它們各有特點(diǎn),長處和短板都非常明顯。
Claude在ethical(倫理道德)和文學(xué)方面已經(jīng)超過ChatGPT,甚至可以說接近GPT-4,但在代碼能力上被其他同水平模型甩出一大截,這與之前網(wǎng)上其他測(cè)評(píng)的結(jié)論也是比較一致的。
Bard和ChatGPT一樣得分比較平均,但大多數(shù)都被ChatGPT壓一頭。
可以說這三個(gè)模型已經(jīng)是在同一水平線上,只是ChatGPT略勝一籌,沒有什么短板。
另外比較驚喜的是Vicuna-13B作為拿ChatGPT生成的數(shù)據(jù)“克隆“的模型,在模型參數(shù)小ChatGPT一個(gè)量級(jí)的情況下,也能達(dá)到83分,是一個(gè)非常不錯(cuò)的成績了。相比之下,ChatGLM-6B只拿到了一個(gè)合格的分?jǐn)?shù),我們從它的答題情況上來看,確實(shí)能比較明顯地感覺到和其他模型的差距。
不過GPT-4作為出題者,可能包含一些對(duì)于自己答案的bias,(雖然GPT-4并不知道哪個(gè)是自己的答案),但筆者仔細(xì)檢查了GPT-4對(duì)于每個(gè)答案的評(píng)價(jià),可以說還是相對(duì)非常客觀的。
不知各位讀者看了之后覺得如何?
如果你來做這10道題,你能從GPT-4手下拿到多少分呢?