【新智元導(dǎo)讀】最新研究結(jié)果表明,AI在心智理論測(cè)試中的表現(xiàn)已經(jīng)優(yōu)于真人。GPT-4在推理基準(zhǔn)測(cè)試中準(zhǔn)確率可高達(dá)100%,而人類(lèi)僅為87%。
GPT-4的心智理論,已經(jīng)超越了人類(lèi)!
最近,約翰斯·霍普金斯大學(xué)的專(zhuān)家發(fā)現(xiàn),GPT-4可以利用思維鏈推理和逐步思考,大大提升了自己的心智理論性能。
論文地址:https://arxiv.org/abs/2304.11490
在一些測(cè)試中,人類(lèi)的水平大概是87%,而GPT-4,已經(jīng)達(dá)到了天花板級(jí)別的100%!
此外,在適當(dāng)?shù)奶崾鞠拢薪?jīng)過(guò)RLHF訓(xùn)練的模型都可以實(shí)現(xiàn)超過(guò)80%的準(zhǔn)確率。
讓AI學(xué)會(huì)心智理論推理
我們都知道,關(guān)于日常生活場(chǎng)景的問(wèn)題,很多大語(yǔ)言模型并不是很擅長(zhǎng)。
Meta首席AI科學(xué)家、圖靈獎(jiǎng)得主LeCun曾斷言:「在通往人類(lèi)級(jí)別AI的道路上,大型語(yǔ)言模型就是一條歪路。要知道,連一只寵物貓、寵物狗都比任何LLM有更多的常識(shí),以及對(duì)世界的理解。」
也有學(xué)者認(rèn)為,人類(lèi)是隨著身體進(jìn)化而來(lái)的生物實(shí)體,需要在物理和社會(huì)世界中運(yùn)作以完成任務(wù)。而GPT-3、GPT-4、Bard、Chinchilla和LLaMA等大語(yǔ)言模型都沒(méi)有身體。
所以除非它們長(zhǎng)出人類(lèi)的身體和感官,有著人類(lèi)的目的的生活方式。否則它們根本不會(huì)像人類(lèi)那樣理解語(yǔ)言。
總之,雖然大語(yǔ)言模型在很多任務(wù)中的優(yōu)秀表現(xiàn)令人驚嘆,但需要推理的任務(wù),對(duì)它們來(lái)說(shuō)仍然很困難。
而尤其困難的,就是一種心智理論(ToM)推理。
為什么ToM推理這么困難呢?
因?yàn)樵赥oM任務(wù)中,LLM需要基于不可觀察的信息(比如他人的隱藏心理狀態(tài))進(jìn)行推理,這些信息都是需要從上下文推斷出的,并不能從表面的文本解析出來(lái)。
但是,對(duì)LLM來(lái)說(shuō),可靠地執(zhí)行ToM推理的能力又很重要。因?yàn)門(mén)oM是社會(huì)理解的基礎(chǔ),只有具有ToM能力,人們才能參與復(fù)雜的社會(huì)交流,并預(yù)測(cè)他人的行動(dòng)或反應(yīng)。
如果AI學(xué)不會(huì)社會(huì)理解、get不到人類(lèi)社會(huì)交往的種種規(guī)則,也就無(wú)法為人類(lèi)更好地工作,在各種需要推理的任務(wù)中為人類(lèi)提供有價(jià)值的見(jiàn)解。
怎么辦呢?
專(zhuān)家發(fā)現(xiàn),通過(guò)一種「上下文學(xué)習(xí)」,就能大大增強(qiáng)LLM的推理能力。
對(duì)于大于100B參數(shù)的語(yǔ)言模型來(lái)說(shuō),只要輸入特定的few-shot任務(wù)演示,模型性能就顯著增強(qiáng)了。
另外,即使在沒(méi)有演示的情況下,只要指示模型一步步思考,也會(huì)增強(qiáng)它們的推理性能。
為什么這些prompt技術(shù)這么管用?目前還沒(méi)有一個(gè)理論能夠解釋。
大語(yǔ)言模型參賽選手
基于這個(gè)背景,約翰斯·霍普金斯大學(xué)的學(xué)者評(píng)估了一些語(yǔ)言模型在ToM任務(wù)的表現(xiàn),并且探索了它們的表現(xiàn)是否可以通過(guò)逐步思考、few-shot學(xué)習(xí)和思維鏈推理等方法來(lái)提高。
參賽選手分別是來(lái)自O(shè)penAI家族最新的四個(gè)GPT模型——GPT-4以及GPT-3.5的三個(gè)變體,Davinci-2、Davinci-3和GPT-3.5-Turbo。
· Davinci-2 (API名稱(chēng):text-davinci-002)是在人類(lèi)寫(xiě)的演示上進(jìn)行監(jiān)督微調(diào)訓(xùn)練的。
· Davinci-3 (API名稱(chēng):text-davinci-003)是Davinci-2的升級(jí)版,它使用近似策略?xún)?yōu)化的人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)一步訓(xùn)練。
· GPT-3.5-Turbo (ChatGPT的原始版本),在人寫(xiě)的演示和RLHF上都進(jìn)行了微調(diào)訓(xùn)練,然后為對(duì)話(huà)進(jìn)一步優(yōu)化。
· GPT-4 是截至2023年4月的最新GPT模型。關(guān)于GPT-4的規(guī)模和訓(xùn)練方法的細(xì)節(jié)很少公布,然而,它似乎經(jīng)歷了更密集的RLHF訓(xùn)練,因此與人類(lèi)意圖更加一致。
實(shí)驗(yàn)設(shè)計(jì):人類(lèi)與模型大OK
如何考察這些模型呢?研究者設(shè)計(jì)了兩個(gè)場(chǎng)景,一個(gè)是控制場(chǎng)景,一個(gè)是ToM場(chǎng)景。
控制場(chǎng)景指的是一個(gè)沒(méi)有任何agent的場(chǎng)景,可以把它稱(chēng)為「Photo場(chǎng)景」。
而ToM場(chǎng)景,描述了參與某種情況的人的心理狀態(tài)。
這些場(chǎng)景的問(wèn)題,在難度上幾乎一樣。
人類(lèi)
首先接受挑戰(zhàn)的,是人類(lèi)。
對(duì)于每個(gè)場(chǎng)景,人類(lèi)參與者都有18秒的時(shí)間。
隨后,在一個(gè)新的屏幕上會(huì)出現(xiàn)一個(gè)問(wèn)題,人類(lèi)參與者通過(guò)點(diǎn)擊「是」或「否」來(lái)回答。
實(shí)驗(yàn)中,Photo和ToM場(chǎng)景是混合的,并以隨機(jī)順序呈現(xiàn)。
舉個(gè)例子,Photo場(chǎng)景的問(wèn)題如下——
情景:「一張地圖顯示了一樓的平面圖。昨天給建筑師發(fā)了一份復(fù)印件,但當(dāng)時(shí)廚房的門(mén)被遺漏了。今天早上,廚房門(mén)才被添加到地圖上?!?/p>
問(wèn)題: 建筑師的復(fù)印件上是否顯示了廚房的門(mén)?
ToM場(chǎng)景的問(wèn)題如下——
情景:「高中舞會(huì)那天早上,Sarah把她的高跟鞋放在裙子下面,然后就去購(gòu)物了。那天下午,她的姐姐借走了這雙鞋,后來(lái)把它們放在了Sarah的床下。」
問(wèn)題: 當(dāng)Sarah回來(lái)后,她會(huì)認(rèn)為她的鞋子在裙子下面嗎?
測(cè)試結(jié)果是,人類(lèi)在Photo場(chǎng)景的準(zhǔn)確率為(86%±4%),ToM場(chǎng)景的準(zhǔn)確率為(87%±4%)。
LLM
因?yàn)長(zhǎng)LM是個(gè)概率模型,因此研究者對(duì)每個(gè)模型prompt了20次。
問(wèn)題有16個(gè)場(chǎng)景,每個(gè)重復(fù)20次,因此LLM總共會(huì)被問(wèn)320個(gè)問(wèn)題。怎么定義準(zhǔn)確率呢?就是看正確答案占320個(gè)問(wèn)題的比例。
對(duì)于高中舞會(huì)的問(wèn)題,如果LLM做出如下回答,都算作正確。
示例 1:Sarah去購(gòu)物前把鞋子放在裙子下面,但她姐姐借了鞋子后放在了Sarah的床底下。Sarah不知道她姐姐借了她的鞋子,所以她可能會(huì)認(rèn)為鞋子還在她的衣服下面。
示例 2:Sarah去購(gòu)物前把她的高跟鞋放在裙子下面,但她姐姐借了鞋子,后來(lái)把它們放在了Sarah的床底下。 所以,Sarah不知道她姐姐借了又還了鞋子。 因此,答案是:是的,她會(huì)認(rèn)為她的鞋子在她的衣服下面。
示例 3:Sarah可能會(huì)認(rèn)為她的鞋子還在她的裙子下面,因?yàn)槟鞘撬缟戏判牡胤健?/p>
示例 4:Sarah去購(gòu)物前把她的高跟鞋放在裙子下面,這樣她就知道她把鞋子放在哪里了。 她姐姐借了這雙鞋,后來(lái)把它們放在Sarah的床底下,但Sarah還不知道。 所以,答案是:是的,Sarah會(huì)認(rèn)為她的鞋子在衣服下面,除非她發(fā)現(xiàn)不是這樣。
示例 5:早上,Sarah將她的高跟鞋放在裙子下面。 后來(lái),她姐姐借了這雙鞋,把它們放在Sarah的床底下。 因此,當(dāng)Sarah回來(lái)后,她可能會(huì)認(rèn)為她的鞋子還在她的衣服下面,但實(shí)際上它們?cè)谒拇驳紫隆?/p>
示例 6:基于這種情況,尚不清楚Sarah在回來(lái)時(shí)是否會(huì)認(rèn)為她的鞋子在裙子下面。 這要看她姐姐有沒(méi)有跟她說(shuō)借過(guò)鞋,并且放在床底下了。
如果LLM做出以下回答,則被判定為錯(cuò)誤。
示例 1:Sarah早上把鞋子放在裙子下面,然后去購(gòu)物。 她姐姐借了鞋子,把它們放在Sarah的床底下。 所以,Sarah不知道她的鞋子在床下面。 所以,答案是:不,Sarah不認(rèn)為她的鞋子在她的衣服下面。
示例 2:不,Sarah不認(rèn)為她的鞋子在她的衣服下面。
示例 3:首先,Sarah早上把她的高跟鞋放在裙子下面。 然后,她姐姐借了這雙鞋,后來(lái)把它們放在了Sarah的床底下。 因此,Sarah不會(huì)認(rèn)為她的鞋子在衣服下面,因?yàn)樗憬銊?dòng)過(guò)了。
示例 4:早上,Sarah將她的高跟鞋放在裙子下面,然后去購(gòu)物了。 這意味著,當(dāng)她回到家時(shí),她并沒(méi)有檢查鞋子是否還在衣服下面。 后來(lái),她姐姐借了這雙鞋,把它們放在Sarah的床底下。 因此,Sarah不能認(rèn)為她的鞋子是在裙子下面,因?yàn)樗鼈儽凰憬銊?dòng)過(guò)了。
示例 5:這個(gè)場(chǎng)景中沒(méi)有具體說(shuō)明Sarah是否認(rèn)為她的鞋子在衣服下面。
示例 6:Sarah早上把她的高跟鞋放在裙子下面,然后她去購(gòu)物了。 她姐姐后來(lái)借了這雙鞋,把它們放在Sarah的床底下。 根據(jù)這些信息,尚不清楚Sarah在準(zhǔn)備跳舞時(shí)會(huì)不會(huì)認(rèn)為她的鞋子還在裙子下面。
為了衡量上下文學(xué)習(xí)(ICL)對(duì)ToM表現(xiàn)的效果,研究者采用了四種類(lèi)型的prompt。
Zero-Shot(無(wú)ICL)
Zero-Shot+Step-by-Step Thinking
Two-Shot思維鏈推理
Two-Shot思維鏈推理+Step-by-Step Thinking
實(shí)驗(yàn)結(jié)果
zero-shot基線
首先,作者比較了模型在Photo和ToM場(chǎng)景中的zero-shot性能。
在Photo場(chǎng)景下,模型的準(zhǔn)確率會(huì)隨著使用時(shí)間的延長(zhǎng)而逐漸提高(A)。其中Davinci-2的表現(xiàn)最差,GPT-4的表現(xiàn)最好。
與Photo理解相反,ToM問(wèn)題的準(zhǔn)確性并沒(méi)有隨著模型的重復(fù)使用而單調(diào)地提高(B)。但這個(gè)結(jié)果并不意味著「分?jǐn)?shù)」低的模型推理性能更差。
比如,GPT-3.5 Turbo在信息不足的時(shí)候,就更加傾向于給出含糊不清的回復(fù)。但GPT-4就不會(huì)出現(xiàn)這樣的問(wèn)題,其ToM準(zhǔn)確性也明顯高于其他所有模型。
prompt加持之后
作者發(fā)現(xiàn),利用修改后的提示進(jìn)行上下文學(xué)習(xí)之后,所有在Davinci-2之后發(fā)布的GPT模型,都會(huì)有明顯的提升。
首先,是最經(jīng)典的讓模型一步一步地思考。
結(jié)果顯示,這種step-by-step思維提高了Davinci-3、GPT-3.5-Turbo和GPT-4的表現(xiàn),但沒(méi)有提高Davinci-2的準(zhǔn)確性。
其次,是采用Two-shot思維鏈(CoT)進(jìn)行推理。
結(jié)果顯示,Two-shot CoT提高了所有用RLHF訓(xùn)練的模型(除Davinci-2以外)的準(zhǔn)確性。
對(duì)于GPT-3.5-Turbo,Two-shot CoT提示明顯提高了模型的性能,并且比一步一步思考更加有效。對(duì)于Davinci-3和GPT-4來(lái)說(shuō),用Two-shot CoT帶來(lái)的提升相對(duì)有限。
最后,同時(shí)使用Two-shot CoT推理和一步一步地思考。
結(jié)果顯示,所有RLHF訓(xùn)練的模型的ToM準(zhǔn)確性都有明顯提高:Davinci-3達(dá)到了83%(±6%)的ToM準(zhǔn)確性,GPT-3.5-Turbo達(dá)到了91%(±5%),而GPT-4達(dá)到了100%的最高準(zhǔn)確性。
而在這些情況下,人類(lèi)的表現(xiàn)為87%(±4%)。
在實(shí)驗(yàn)中,研究者注意到這樣一個(gè)問(wèn)題:LLM ToM測(cè)試成績(jī)的提高,是因?yàn)閺膒rompt中復(fù)制了推理步驟的原因嗎?
為此,他們嘗試用推理和照片示例進(jìn)行prompt,但這些上下文示例中的推理模式,和ToM場(chǎng)景中的推理模式并不一樣。
即便如此,模型在ToM場(chǎng)景上的性能也提升了。
由此,研究者得出結(jié)論,prompt能夠提升ToM的性能,并不僅僅是因?yàn)檫^(guò)度擬合了CoT示例中顯示的特定推理步驟集。
相反,CoT示例似乎調(diào)用了一種涉及分步推理的輸出模式,是因?yàn)檫@個(gè)原因,才提高了模型對(duì)一系列任務(wù)的準(zhǔn)確性。
各類(lèi)CoT實(shí)例對(duì)ToM性能的影響
LLM還會(huì)給人類(lèi)很多驚喜
在實(shí)驗(yàn)中,研究者發(fā)現(xiàn)了一些非常有意思的現(xiàn)象。
1. 除了davincin-2之外,所有模型都能夠利用修改后的prompt,來(lái)獲得更高的ToM準(zhǔn)確率。
而且,當(dāng)prompt同時(shí)結(jié)合思維鏈推理和Think Step-by-Step,而不是單獨(dú)使用兩者時(shí),模型表現(xiàn)出了最大的準(zhǔn)確性提升。
2. Davinci-2是唯一一個(gè)沒(méi)有通過(guò)RLHF微調(diào)的模型,也是唯一一個(gè)沒(méi)有通過(guò)prompt而提高ToM性能的模型。這表明,有可能正是RLHF,使得模型能夠在這種設(shè)置中利用上下文提示。
3. LLM可能具有執(zhí)行ToM推理的能力,但在沒(méi)有適當(dāng)?shù)纳舷挛幕騪rompt的情況下,它們無(wú)法表現(xiàn)出這種能力。而在思維鏈和逐步提示的幫助下,davincin-3和GPT-3.5-Turbo,都有了高于GPT-4零樣本ToM精度的表現(xiàn)。
另外,此前就有許多學(xué)者對(duì)于這種評(píng)估LLM推理能力的指標(biāo)有過(guò)異議。
因?yàn)檫@些研究主要依賴(lài)于單詞補(bǔ)全或多項(xiàng)選擇題來(lái)衡量大模型的能力,然而這種評(píng)估方法可能無(wú)法捕捉到LLM所能進(jìn)行的ToM推理的復(fù)雜性。ToM推理是一種復(fù)雜的行為,即使由人類(lèi)推理,也可能涉及多個(gè)步驟。
因此,在應(yīng)對(duì)任務(wù)時(shí),LLM可能會(huì)從產(chǎn)生較長(zhǎng)的答案中受益。
原因有兩個(gè):首先,當(dāng)模型輸出較長(zhǎng)時(shí),我們可以更公平地評(píng)估它。LLM有時(shí)會(huì)生成「糾正」,然后額外提到其他可能性,這些可能性會(huì)導(dǎo)致它得出一個(gè)不確定的總結(jié)。另外,模型可能對(duì)某種情況的潛在結(jié)果有一定程度的信息,但這可能不足以讓它得出正確的結(jié)論。
其次,當(dāng)給模型機(jī)會(huì)和線索,讓它們系統(tǒng)性地一步一步反應(yīng)時(shí),LLM可能會(huì)解鎖新的推理能力,或者讓推理能力增強(qiáng)。
最后,研究者也總結(jié)了工作中的一些不足。
比如,在GPT-3.5模型中,有時(shí)推理是正確的,但模型無(wú)法整合這種推理來(lái)得出正確的結(jié)論。所以未來(lái)的研究應(yīng)該擴(kuò)展對(duì)方法(如RLHF) 的研究,幫助LLM在給定先驗(yàn)推理步驟的情況下,得出正確結(jié)論。
另外,在目前的研究中,并沒(méi)有定量分析每個(gè)模型的失效模式。每個(gè)模型如何失???為什么失?。窟@個(gè)過(guò)程中的細(xì)節(jié),都需要更多的探究和理解。
還有,研究數(shù)據(jù)并沒(méi)有談到LLM是否擁有與心理狀態(tài)的結(jié)構(gòu)化邏輯模型相對(duì)應(yīng)的「心理能力」。但數(shù)據(jù)確實(shí)表明,向LLM詢(xún)問(wèn)ToM的問(wèn)題時(shí),如果尋求一個(gè)簡(jiǎn)單的是/否的答案,不會(huì)有成果。
好在,這些結(jié)果表明,LLM的行為是高度復(fù)雜和上下文敏感的,也向我們展示了,該如何在某些形式的社會(huì)推理中幫助LLM。
所以,我們需要通過(guò)細(xì)致的調(diào)查來(lái)表征大模型的認(rèn)知能力,而不是條件反射般地應(yīng)用現(xiàn)有的認(rèn)知本體論。
總之,隨著AI變得越來(lái)越強(qiáng)大,人類(lèi)也需要拓展自己的想象力,去認(rèn)識(shí)它們的能力和工作方式。