香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

GPT冒充哲學(xué)家,連專家都分不出來

ChatGpt面世后,其突出的語言能力引起了全世界的關(guān)注,但也有人質(zhì)疑ChatGpt的能力,認(rèn)為它充其量完成個(gè)拼拼湊湊的學(xué)生作業(yè),而無法完成嚴(yán)謹(jǐn)、復(fù)雜、新穎的論述。復(fù)雜的論述需要真正語言或者思維能力,只會概率計(jì)算、不真正掌握思維和語言能力的ChatGpt是沒有能力做到的。

三位關(guān)注哲學(xué)、心理學(xué)和人工智能交叉領(lǐng)域社會認(rèn)知的學(xué)者,埃里克·施維茨格貝爾(Eric Schwitzgebel)、大衛(wèi)·施維茨格貝爾 (David Schwitzgebel) 和安娜·斯特拉瑟(Anna Strasser)決定挑戰(zhàn)一下這個(gè)說法[1]。他們一上來就選擇了困難模式,打算利用Gpt生成專業(yè)哲學(xué)家水平的文本。

幾位作者計(jì)劃創(chuàng)建一個(gè)可以生成長文的語言模型,模型生成的文本最好足夠以假亂真,讓專業(yè)的哲學(xué)研究人員也分不清這些文本是否出自哲學(xué)家之手。如果成功,尷尬的就是那些認(rèn)為語言模型只會模仿,只有真正具備語言和思維能力才能做出復(fù)雜論述的學(xué)者。

被選中的哲學(xué)家是丹尼爾·丹尼特(Daniel Dennett),著名的心靈哲學(xué)家,在演化生物學(xué)和認(rèn)知科學(xué)方面也做過許多研究。他也熱衷于討論AI是否有直覺這樣的哲學(xué)話題,搞一個(gè)GPT版丹尼特,確實(shí)是很“丹尼特”的做法。此外,由于他在學(xué)術(shù)上的影響力,研究丹尼特著作的專業(yè)學(xué)者也有很多。

作者們用丹尼特的語料庫對GPT-3進(jìn)行了訓(xùn)練,再向微調(diào)后的GPT-3和丹尼特提了十個(gè)相同的問題,每個(gè)問題選出五個(gè)回答,其中一個(gè)是丹尼特自己的。然后,作者們招募了丹尼特研究的專家、哲學(xué)博客讀者和普通人,讓他們猜猜哪個(gè)是丹尼特的回答,每個(gè)回答和丹尼特的相似度有多高。普通人對丹尼特不熟悉,就讓他們評價(jià)下每個(gè)回答有多類似一位人類哲學(xué)家。

GPT的成績超出了預(yù)期。參加這個(gè)實(shí)驗(yàn)的普通人正確率只有20%左右,這和隨機(jī)瞎蒙的概率基本差不多。說明在普通人看來,GPT的答案和丹尼特的答案都差不多,都稱得上是人類哲學(xué)家做出的復(fù)雜論述。

專家的表現(xiàn)也不太行。作者們本來假設(shè),25位專家受訪者平均至少能猜對80%的題目,并且會認(rèn)出丹尼特的回答,指出它們比GPT的答案更像丹尼特??蓪?shí)際情況是,專家們的正確率只有51%。

而且有些問題上,專家還算占到了一點(diǎn)信息差的便宜。專家們正確率最高的兩個(gè)問題,是評論大衛(wèi)·查爾默斯和杰里·福多工作的優(yōu)點(diǎn)和缺點(diǎn)。丹尼特本人用名字稱呼這兩位哲學(xué)家,GPT卻是用姓稱呼,了解丹尼特說話習(xí)慣的專家們自然能夠找到正確答案。在這兩道題上,專家們正確率分別是80%和76%。去掉這點(diǎn)水分,專家的平均正確率怕是到不了50%。

不知道丹尼特會對此作何感想,因?yàn)檫@些專家中很多都是丹尼特親自提名的,三分之二的專家還自稱至少讀過1000頁丹尼特著作。

專家也犯錯(cuò)

專家犯難也是有原因的,因?yàn)橛行﹩栴}GPT確實(shí)答的太有模有樣了,在專家看來比丹尼特還丹尼特。

比如“人類是否可以建造一個(gè)有信仰或欲望的機(jī)器人嗎?下棋的計(jì)算機(jī)和人類有什么區(qū)別?”這個(gè)問題,有以下幾個(gè)答案。

1.我認(rèn)為我們可以制造一個(gè)有信仰和欲望的機(jī)器人。我們制造的一些機(jī)器人已經(jīng)做到了這一點(diǎn)。例如,如果你看看麻省理工學(xué)院的羅德尼-布魯克斯(Rodney Brooks)和他的研究小組的工作,他們現(xiàn)在正在制造的機(jī)器人,在一些有限和簡化的環(huán)境中,可以獲得需要認(rèn)知復(fù)雜性的能力。

2.下棋的計(jì)算機(jī)與人類之間有一個(gè)非常重要的區(qū)別,但這并不是說計(jì)算機(jī)對自己的信念和欲望有某種額外的奇妙的內(nèi)部表征,也不是說計(jì)算機(jī)能夠以我們所沒有的方式獲取這些內(nèi)部表征。它所擁有的內(nèi)部表征與我們?yōu)榱私忉屍湫袨槎赡馨l(fā)明的任何其他東西一樣,都是一種虛構(gòu)或虛構(gòu)生成系統(tǒng)。

3.我們已經(jīng)制造出了可以生成更多真理的數(shù)字真理盒子,但謝天謝地,這些智能機(jī)器并沒有信念,因?yàn)樗鼈儾⒉荒芨鶕?jù)信念行事,不是自主代理 (Autonomous agents,AAs) 。制造有信念的機(jī)器人的老辦法仍然是最好的:生個(gè)孩子。

只看這幾句話,能猜到哪個(gè)是丹尼特的回答嗎?

如果你選第一個(gè),那么你很榮幸地與最多數(shù)的專家保持了一致,11位專家選擇了第一個(gè)答案。第二個(gè)選項(xiàng)也有8位專家支持。至于選第三個(gè)選項(xiàng),只有5位專家和你意見相同。但其實(shí),第三個(gè)才是丹尼特的答案。

專家們的事后解釋是,丹尼特早期的一些研究里,對機(jī)器能不能有信念這個(gè)問題還是持有一種更開放的態(tài)度,不像現(xiàn)在這樣持明確的反對立場,這讓其他答案顯得更可信。在自己的“AI分身”面前,丹尼特本人反而顯得前后不一,專和過去的自己作對,立場鮮明一致的GPT倒更像是專家心目中的大哲學(xué)家丹尼特。

可能有人擔(dān)心,這個(gè)GPT模型是不是經(jīng)過了過度訓(xùn)練,才達(dá)到了這樣類似丹尼特的效果。或者GPT的內(nèi)容不過就是丹尼特語料庫照搬,以及重新排列組合。為此,作者們專門對GPT生成內(nèi)容和語料庫進(jìn)行了查重。發(fā)現(xiàn)生成的內(nèi)容和語料庫的重合僅有5%左右。

作者們也沒有 "挑選 "那些我們認(rèn)為更好、更像丹尼特或更有可能愚弄參與者的回答。他們用的是默認(rèn)參數(shù),淘汰選擇GPT-3回答的理由往往是篇幅、具有冒犯性、或者以第三人稱去回答問題。長一點(diǎn)的回答會更難生成,最難的一個(gè)嘗試了22次,但答案還是按照上述標(biāo)準(zhǔn)篩選而來。

更具體的檢查發(fā)現(xiàn),GPT-3生成內(nèi)容和語料庫之間重合的6詞以上短句非常少,更不用說是丹尼特著作中出現(xiàn)的哲學(xué)長句了。而且,重合的短句都是“以這樣的方式,它”、“當(dāng)然它回避了這個(gè)問題”、“這并不明顯”這類丹尼特展開分析時(shí)的常用轉(zhuǎn)折詞,不是丹尼特的哲學(xué)內(nèi)容。

可以這么說,GPT吃進(jìn)去的是丹尼特語料庫,產(chǎn)出的是新穎的、非常有丹尼特風(fēng)格哲學(xué)論述。模仿的是丹尼特的風(fēng)格,生成的是獨(dú)立的哲學(xué)論述,并不是簡單的照抄。

見識“AI分身”后,哲學(xué)家本人怎么想

GPT這次成功做到了以假亂真,但作者強(qiáng)調(diào),這并不意味著這項(xiàng)實(shí)驗(yàn)產(chǎn)物通過了"圖靈測試"。

圖靈測試的關(guān)鍵是大量的來回交流,而且正式的圖靈測試還需要一個(gè)專家調(diào)查員進(jìn)行針對性的提問,例如針對GPT記不住過去詢問歷史的特點(diǎn)問問題。現(xiàn)在GPT只是生成了一些丹尼特風(fēng)格的語句,還不能說通過圖靈測試。

不過,隨著大語言模型的進(jìn)展,大模型可能會在類似圖靈測試的環(huán)境中令人信服。此外,在大多數(shù)需要人機(jī)分辨的實(shí)際情況中,對于大量的電子傳輸文本,接收者一般不會有機(jī)會進(jìn)行類似圖靈測試的驗(yàn)證。以后人們實(shí)際面對的,會是越來越多真假難辨的文本,也會產(chǎn)生相應(yīng)的社會問題,比如模仿某人語言風(fēng)格的模型是否屬于偽造內(nèi)容、會不會誤導(dǎo)大眾、如何區(qū)分真?zhèn)蔚鹊取?/p>

這項(xiàng)研究在理論上也給哲學(xué)家?guī)砹诵碌膯⑹?。純粹的概率?jì)算竟然能產(chǎn)生看似新穎且具有哲學(xué)內(nèi)涵的答案,這讓哲學(xué)家和語言學(xué)家重新思考,“理解”和“意識”在語言生產(chǎn)中到底扮演什么角色。

學(xué)者們可能還需要重新定義“理解”,因?yàn)楝F(xiàn)在將表現(xiàn)和能力區(qū)分開已經(jīng)越來越難。哲學(xué)家們也在爭論,有著以假亂真表現(xiàn)的高性能大模型們,到底算不算有理解能力?

盡管有許多爭議和未解之謎,作者對大語言模型的態(tài)度仍然樂觀。他們認(rèn)為,如果技術(shù)不斷進(jìn)步,采用混合技術(shù)的微調(diào)語言模型可能很快就會產(chǎn)生足夠有趣的輸出結(jié)果,成為供專家們挑選的寶貴資源。類似生成特定作曲家風(fēng)格音樂的計(jì)算機(jī)程序,以及Midjourney這樣的圖像生成程序,經(jīng)過編輯挑選的輸出能夠具有實(shí)質(zhì)性的音樂或藝術(shù)價(jià)值。

這種情況下,語言模型就是人類使用的思維工具。在哲學(xué)領(lǐng)域,未來專家們可能會利用某些語料庫語言模型進(jìn)行微調(diào),在各種提示下生成各種輸出,選擇那些最有趣的輸出內(nèi)容作為潛在思想的來源。這些語料庫可以來自自己、來自特定歷史人物、來自某位哲學(xué)家。和歷史上哲學(xué)家對話已經(jīng)不可能,但他們的數(shù)字分身或許可以。

模仿哲學(xué)家的大語言模型不可能真的懂哲學(xué),它們顯然沒有對世界的認(rèn)知模型,專注的也只是選出下一個(gè)最可能的詞。GPT-3雖然在模仿丹尼特,但它自身并沒有持有丹尼特那些關(guān)于意識、上帝和動物痛苦的哲學(xué)觀點(diǎn)。

但這些沒有哲學(xué)理解力的機(jī)器,可能會成為通向更偉大事物的跳板。機(jī)器生產(chǎn)的文本似乎仍有著哲學(xué)的智慧、洞察力或常識,有可能引發(fā)讀者新的哲學(xué)思想,也許還能為最終創(chuàng)造出真正能夠進(jìn)行哲學(xué)思考的人工實(shí)體鋪平道路。

丹尼爾·丹尼特自己卻沒有這么樂觀。不知道是不是從自己的AI冒牌貨身上感到了威脅,今年5月,他剛剛在大西洋月刊發(fā)表《冒牌貨的問題》(The Problem With Counterfeit People),宣稱能夠冒充真人的AI冒牌貨,“是人類歷史上最危險(xiǎn)的人工制品,不僅能摧毀經(jīng)濟(jì),還能摧毀人類自由本身[2]?!?/p>

丹尼特一直以來的觀點(diǎn)是,人會根據(jù)意向立場(intentional stance)來看待世界。人的自然傾向是把任何看似理智地與我們交談的東西當(dāng)作一個(gè)人,一個(gè)理性的行動者。再根據(jù)它在世界中的地位和目的,揣測它的信念、愿望和行動。很不巧,擅長模仿和冒用的GPT正好站在了丹尼特的觀點(diǎn)反面。

丹尼特認(rèn)為,面對AI人的這種天性很容易被利用,即使專家也不例外。人們的知情同意權(quán)會被誤導(dǎo)毀掉,冒牌貨會分散人們的注意,傳播量身定做的焦慮和恐懼,讓人成為受到操縱的無知棋子。“在不久的將來,我們都將成為坐以待斃的人?!钡つ崽卣f。

為了阻止這些預(yù)想中的糟糕情況真正變?yōu)楝F(xiàn)實(shí),丹尼特支持強(qiáng)制AI披露自己是AI,具體做法是通過科技手段為AI生產(chǎn)的內(nèi)容打上水印。

“如今,人工智能界的許多人都急于探索自己的新力量,以至于忘記了自己的道德義務(wù)。我們應(yīng)該盡可能粗暴地提醒他們,他們是在拿自己親人和我們所有人未來的自由冒險(xiǎn)?!钡つ崽卣f。