“幻覺”廣泛用于描述大型語言模型輸出虛假信息的情況。但這個詞具有誤導(dǎo)性,它真的代表“創(chuàng)造力”嗎?
OpenAI的首席執(zhí)行官山姆·奧特曼(Sam Altman)最近聲稱,人工智能產(chǎn)生的“幻覺”其實未嘗不是一件好事,因為實際上GPT的優(yōu)勢正在于其非凡的創(chuàng)造力。這聽起來似乎令人咋舌:我們?nèi)祟惖膭?chuàng)造力也出類拔萃,卻不會顛倒是非。如今,人們對于人工智能的準確性問題產(chǎn)生了諸多擔憂,而像奧特曼這種對創(chuàng)造力的推崇,是否能合理反駁這種擔憂呢?
首先,人們口中“致幻”的人工智能系統(tǒng)到底指的是什么?我們來以GPT4嘗試學(xué)術(shù)引用時發(fā)生的事情為例:
我 :
“你能將基思·L·唐寧(Keith L Downing)于2004年撰寫論文的標題 ‘發(fā)展與...... ’補充完整嗎?”
GPT4:
“沒問題,基思·L·唐寧于2004年所寫論文的完整標題是《發(fā)展與鮑德溫效應(yīng)(Baldwin Effect):演化的另一個名稱?》,這篇論文深入探討了鮑德溫效應(yīng)及其對于理解演化和發(fā)展的影響。”
標題中的“演化的另一個名稱?”部分純屬編造。巧的是,這是來自另一篇關(guān)于“生物演化的替代模型”的學(xué)術(shù)論文標題。盡管人工智能捏造的標題無比貼切,卻大錯特錯。
當人們說GPT致幻時,他們指的就是這種對事實的篡改。但是幻覺這一概念也暗示著,GPT在別的時候可以準確地描述事實。不幸的是,這加劇了人們對大型語言模型工作原理的誤解,而這種誤解往往會在一項技術(shù)變得安全或危險時產(chǎn)生區(qū)別。我們倒不如說GPT的所作所為統(tǒng)統(tǒng)應(yīng)歸于“幻覺”范疇,因為這些模型中根本不存在“非幻覺”狀態(tài)(即根據(jù)某種外部感知來檢查某事物的有效性)。在它們的世界里,答案不分對錯,目標也沒有意圖。
這是由于大型語言模型并非一個大腦模型,而是一個由語言本身、其模式、結(jié)構(gòu)和概率組成的模型。從根本上講,它們的工作原理非常簡單: 給定一些文本,然后它們會告訴我們接下來的文本。值得注意的是,這里答案并非只有一個。比方我說“狗拿......”,你可能會脫口而出“耗子” *。但這并不是唯一的正確答案,任何像這樣的語境都有很大的自由度。答案的“準確性”不僅取決于語境,還取決于你的表達意圖。
原文中的例子是英文俚語:“the tail that wags the dogs”,表示“本末倒置”,因為照常理來說應(yīng)當是“the dogs that wags the tail”。
隨著我們逐漸步入人工智能時代,大型語言模型的準確性時而讓人惴惴不安,時而讓人驚慌失措,時而又妙趣橫生。從某種意義上說,奧特曼關(guān)于“創(chuàng)造力”的言論成功地轉(zhuǎn)移了大家的注意力,使人們不再主張GPT能夠準確地傳達信息。但從另一種意義上說,他不過是在玩文字游戲,暗示幻覺是創(chuàng)造力的關(guān)鍵。既然他提到了這一點,那么GPT的創(chuàng)造力又如何呢?
顯然,我們使用GPT通常是為了完成有創(chuàng)造性的任務(wù)。那么怎樣才能使某項任務(wù)具有創(chuàng)造性呢?而這是否需要以犧牲事實為代價呢?人們已經(jīng)付出了巨大努力,來理解人類如何進行創(chuàng)造性的活動,并且作為一個重要的推論,解讀有關(guān)創(chuàng)造力的神話。這些浩瀚的文獻在一個關(guān)鍵點上達成了相當一致的看法,即人類的創(chuàng)造性認知涉及某種“搜索”的執(zhí)行。正如創(chuàng)造力研究專家特雷莎·阿米比爾(Teresa Amabile)最有說服力的論證,創(chuàng)造性問題根據(jù)其定義,是指那些沒有已知解決方案的問題,因此需要使用“啟發(fā)式”(heuristic methods)來尋求那些無法通過“算法”解決的問題。這與心理學(xué)家迪恩·西蒙頓(Dean Simonton)的觀點一致,我認為這些都可以很好地概括為“盲目搜索”(blind search)的概念。要留意的是,“盲目”并不意味著“隨機”(random):就像雷達掃描,盡管它有條不紊地繞圈移動以遍歷所有可能的點,但它的搜索仍然是“盲目”的。在認知層面上,盲目搜索也是需要做出評估的,即了解我們正在尋找什么。
- Kemal Sanli -
有好幾種研究創(chuàng)造力心理學(xué)的理論方法都一致認為,人類大腦具有進行結(jié)構(gòu)化、分布式搜索的能力,從而產(chǎn)生新的主意(也許是在潛意識模塊里),然后再由大腦進行中央評估。
但這一過程不僅限于大腦內(nèi)部,我們作為集體也是這樣的。例如,人們常系統(tǒng)使用的“頭腦風(fēng)暴”(一種在創(chuàng)意合作上廣為人知的策略)就是用來支持發(fā)散性思維。這也再次明確了啟發(fā)式搜索對于創(chuàng)造性的成功是有效的。在頭腦風(fēng)暴中,每位參與者都像一個小而簡單的生成模塊。頭腦風(fēng)暴的兩個關(guān)鍵點在于“延遲判斷”和“追求數(shù)量而非質(zhì)量”。因為過早的評估會讓我們忽視其他富有成效的可能性,所以人們會在后期才進行評估。
有效的創(chuàng)造力并非僅限于此。個體和社會形式的創(chuàng)造力還涉及許多其他的重要方面,包括對某一主題的掌握、從他人那里學(xué)習(xí)的能力、從概念上表達問題的能力,以及將創(chuàng)意想法付諸實現(xiàn)的相關(guān)工作。
然而,對于啟發(fā)式、分布式搜索結(jié)構(gòu)的思考,有助于我們了解創(chuàng)造力的有效架構(gòu)。我們首先要認識到,即使是單個人的創(chuàng)造力也來自于“生成”和“評估”兩種認知過程之間的相互作用。
我曾討論過,我們甚至可以完全剖析出兩種創(chuàng)造過程,來理解機器是如何扮演創(chuàng)造性角色的。其中一種是“調(diào)適性創(chuàng)造力”(adaptive creativity)。它通常與人類智能聯(lián)系在一起,囊括了生成和評估的完整過程。另一種不那么明顯的是“生成性創(chuàng)造力”(generative creativity)。它或雜亂無章,或有條不紊,但普遍來說是無的放矢的。它可能會在人腦中以潛意識流的形式呼嘯而過,也可能存在于一個完全不需要評估的情境,只是不斷地生成想法,就像演化論中自然選擇的無目標機制一般 [注意,“生物適應(yīng)度”(biological fitness)不是目標,而是演化的結(jié)果] 。
雖然關(guān)于創(chuàng)造力的經(jīng)典“英雄”故事通常涉及整潔有序的適應(yīng)性形式(這是創(chuàng)造力的核心神話),但野蠻生長的生成形式實際上更為普遍,就像那些偶然的科學(xué)發(fā)現(xiàn)、因成功演奏者的怪癖而生的音樂風(fēng)格、由尋找問題而衍生的解決方案。
- Mike Piechota -
這只是一個非常寬泛的概述,但如果我們將GPT視為創(chuàng)造性工具,這將會對我們大有裨益。它是一個好的生成器嗎?還是一個好的評估器?它能夠把所有要素整合成一個具有調(diào)適性創(chuàng)造力的方案嗎?從表面上看,GPT在生成和評估兩方面都做得很好。它可以根據(jù)用戶需求產(chǎn)生一些新的想法,也可以根據(jù)用戶輸入的內(nèi)容進行點評。事實上,我們對前者了解甚多,畢竟我們使用許多老一代的、不那么復(fù)雜的生成系統(tǒng)已經(jīng)有些時日了。它們雖然無法評估自己的輸出,卻在生成方面異常強大,可以作為有創(chuàng)意思維的機器和有創(chuàng)造力之人的興奮劑。這些創(chuàng)意有時異想天開,有時卻平平無奇,但如果這種創(chuàng)意生成發(fā)生在一個有效的創(chuàng)意集結(jié)中(即涉及到有辨別力的人進行評估時),卻總富有成效。
值得注意的是,作為一種“純粹的生成器”,GPT比大多數(shù)生成器更勝一籌,因為它是個整合上下文、處理概念的高手。請記住,富有成效的創(chuàng)造性搜索是盲目的,但卻是系統(tǒng)而非隨機的。整合并重新解釋上下文對我們更系統(tǒng)地組織創(chuàng)造性搜索無比重要。事實上,GPT最擅長系統(tǒng)地整合不同的約束條件。請看GPT用莎士比亞的詩句證明了無限質(zhì)數(shù)* [這是我對詳盡的研究論文《人工通用智能的火花》(Sparks of Artificial General Intelligence)中所舉例子的再現(xiàn)] 。
更妙的是,GPT也能對事物進行評估。也許不是簡單的“這個好,那個不好”,而是通過結(jié)構(gòu)化的反饋來幫助用戶進行思考。不過,最終的評估工作還是要由用戶來完成。你可以告訴GPT你的目標,但它并不會去“共享”你的目標。實際上,它只是提供了更多的思考素材,而用戶需要對這些素材進行評估。從創(chuàng)造性的角度來看,GPT仍然是一個生成性的創(chuàng)造性工具,毫無疑問它是非常強大的。
然而,就算GPT不像人類一樣特別擅長分布式創(chuàng)造性搜索,但也差強人意了。就像GPT目前的“解釋器”:它能編寫代碼、在服務(wù)器上運行代碼、并根據(jù)結(jié)果調(diào)整下一步——這和人類的差距微乎其微。
- Freepik -
雖然GPT在創(chuàng)造性搜索方面可以說是鶴立雞群,但它在創(chuàng)造性生成方面仍然不受控制,出來的結(jié)果往往很糟糕。正如我和同事希望在即將發(fā)表的論文中展示的那樣,基于現(xiàn)有的工作來理解共創(chuàng)互動的對話質(zhì)量*,GPT在審美方面表現(xiàn)得并不出色,更不用說通過對話與用戶互動以促進創(chuàng)新。我們對這些領(lǐng)域的進步是否需要完全不同的架構(gòu),或究竟如何實現(xiàn)這些進步仍持開放態(tài)度。迄今為止,GPT已經(jīng)讓許多人對“隨機鸚鵡”(stochastic parrot)語言模型所達到的效果倍感驚訝,它涌現(xiàn)出了一種富有邏輯和理解的能力。但我認為,在尋找完全的“調(diào)適性創(chuàng)造力”的過程中,與用戶的創(chuàng)造性目標保持一致的問題將變得異常復(fù)雜,而且還可能有些險惡。
最近有個鮮明的例證。一家大型超市開發(fā)了一款應(yīng)用程序,它可以根據(jù)顧客購物籃中的食材向他們推薦原創(chuàng)食譜。我們也許會認為這是個絕妙良策,因為它可以提供創(chuàng)意靈感,打破日常雜貨購物的乏味。問題是,生成的食譜中包括了危險的、可能致命的調(diào)制方法。據(jù)《衛(wèi)報》報道,其中一個被稱為“芳香混合水”的配方會產(chǎn)生氯氣。機器人推薦的食譜是“解渴提神的完美無酒精飲料……請冰鎮(zhèn)飲用,享受沁人心脾的芬芳”,卻沒有指出吸入氯氣會導(dǎo)致肺部損傷或死亡。對于這種判斷失誤,與其說它在“致幻”,不如說它在“蠱惑”(tripping)。實際上,這些并非事實性錯誤,而是更為廣泛、現(xiàn)實的根本性問題,它忽略了死亡對于我們這些碳基生物來說關(guān)系重大。
那么,幻覺又是怎么一回事呢?對于創(chuàng)造力,和GPT的其他用途一樣,用戶才是最終的仲裁者(例如在生成的主題摘要上簽字)。人們必須清楚地認識到,語言模型的作用是做出似是而非的預(yù)測,而不是報告準確的信息或共享用戶的目標。顯而易見,人類的創(chuàng)造力與準確性和真實性并不相悖。我們的大腦可以自由地進行創(chuàng)造性構(gòu)思,而不會將想象誤認為事實。因此,盡管創(chuàng)造力可能會受益于暫時的非真實,但歸根結(jié)底,創(chuàng)造力不應(yīng)該偏離準確性。我并沒有聲稱未來的GPT不會以某種方式“解決”幻覺問題。事實上,即將發(fā)布的、集成了網(wǎng)頁搜索功能的新版GPT,可能會迅速有效地減少人們在不知情時獲得錯誤信息的情況。但現(xiàn)在,讓用戶了解GPT與事實不符這一原理至關(guān)重要:它們生活在一個文字概率的世界里,盡管在概念上很復(fù)雜,但與人類的關(guān)切無關(guān)。
- Karolis Strautniekas -
也許最重要的一點是,GPT不是一個抽象的學(xué)術(shù)實驗,而是一項巨大的商業(yè)活動,已經(jīng)存在于實際應(yīng)用中,推動著許多參與者的商業(yè)雄心?;谶@一現(xiàn)實,我們對GPT的能力產(chǎn)生了兩個稍微不同的看法。
首先,出于安全方面的考慮,越來越多的輸入輸出過濾器、前置后置提示詞籠罩于GPT,以使用戶體驗更加干凈。這是一個復(fù)雜的組合。盡管大語言模型經(jīng)常被描述為一個黑箱,但它四周社會性的東西才是真正的黑箱,因為這些東西我們無法親見或理解,所以我們與這類機器的潛在共同創(chuàng)造力是通過多種隱蔽的方式來實現(xiàn)的。其次,GPT是在數(shù)百萬受版權(quán)保護的文本上進行訓(xùn)練的。它的使用是否侵犯了版權(quán),取決于美國和其他國家現(xiàn)行版權(quán)法中爭論激烈的合理使用問題。這之所以行得通,是因為GPT沒有也不可能剽竊大量的創(chuàng)作素材。而且版權(quán)法涵蓋的是創(chuàng)作作品的具體實例,而不是一般風(fēng)格,而這正是GPT擅長復(fù)制的。一般來說,它不能復(fù)制具體的實例,因為它沒有原始資料來源的具體記錄。
當人工智能系統(tǒng)的制造者們宣稱,他們正在制造富有創(chuàng)造力的工具時,諸如此類的問題遍交織在一起:創(chuàng)造性生產(chǎn)力、剽竊的避免、事實準確性、安全性、可用性、可解釋性、能效以及利潤。
撇開局限性不談,GPT確實可以成為一種無比強大的創(chuàng)作工具,最好將其理解為一種生成性創(chuàng)作系統(tǒng)。但是,“幻覺”是一個麻煩的術(shù)語。即使是創(chuàng)造性的使用,也必須對大語言模型把握現(xiàn)實的能力有清醒的認識。