成人精品视频在线观看播放,a√视频在线观看,a视频免费在线观看

人工智能是否能具有像人類一樣的理解能力？

新浪科技綜合

2021-12-20 10:53:12

對(duì)人工智能來說，理解數(shù)據(jù)很簡單，但要設(shè)計(jì)一個(gè)真正能夠檢驗(yàn)機(jī)器理解能力的測(cè)試卻很困難。

　　還記得IBM的人工智能程序“沃森”（Watson）嗎？2010年的一條宣傳語稱，“沃森能夠理解自然語言的模糊性和復(fù)雜性?！比欢?，正如我們所看到的，沃森后來在“運(yùn)用人工智能的醫(yī)學(xué)革命”探索中遭遇慘敗，表面上的語言能力并不等同于真正理解人類語言。

　　理解自然語言一直是人工智能研究的主要目標(biāo)之一。起初，研究人員試圖手動(dòng)編程機(jī)器所需的一切，使其理解新聞故事、小說或其他人類可能編寫的東西。正如沃森所展示的那樣，這種方法是徒勞的，研究人員不可能將理解文本所需的所有不成文的事實(shí)、規(guī)則和假設(shè)都寫下來。最近，一種新的范式已經(jīng)建立起來：與其構(gòu)建明確的知識(shí)，不如讓機(jī)器自己學(xué)習(xí)理解語言，它所要做的，就是吸收大量的書面文本并學(xué)會(huì)預(yù)測(cè)單詞。研究人員將此稱為語言模型。2020年，美國舊金山的人工智能公司OpenAI訓(xùn)練并開發(fā)了一個(gè)自回歸語言模型，稱為“生成型已訓(xùn)練變換模型3”（Generative Pre-trained Transformer 3，簡稱 GPT-3）。當(dāng)基于像GPT-3這樣的大型神經(jīng)網(wǎng)絡(luò)時(shí)，這些模型可以產(chǎn)出令人難以置信的，可與人類散文（和詩歌！）媲美的“作品”，并似乎能執(zhí)行復(fù)雜的語言推理。

　　GPT-3是用成千上萬的網(wǎng)站、書籍和百科全書的文本訓(xùn)練出來的，那我們能否說，它已經(jīng)超越了沃森的“表面功夫”？它真的理解它產(chǎn)生的語言和表面上的推理？在人工智能研究領(lǐng)域，這個(gè)話題存在著嚴(yán)重的分歧。在過去，這樣的討論是哲學(xué)家的研究范疇，但在過去十年間，人工智能已經(jīng)沖破了學(xué)術(shù)圈層，進(jìn)入了現(xiàn)實(shí)世界；有人認(rèn)為，人工智能對(duì)現(xiàn)實(shí)世界的缺乏理解可能會(huì)產(chǎn)生真實(shí)的、甚至是毀滅性的后果。在一項(xiàng)研究中，沃森提出了“許多不安全和不正確的治療建議”。另一項(xiàng)研究表明，谷歌的機(jī)器翻譯系統(tǒng)在為非英語患者翻譯醫(yī)療說明時(shí)，出現(xiàn)了一些重大錯(cuò)誤。

　　那么，我們?nèi)绾卧趯?shí)踐中確定機(jī)器真的具有理解能力？1950年，計(jì)算機(jī)先驅(qū)阿蘭·圖靈試圖用他著名的“模仿游戲”來回答這個(gè)問題，這個(gè)游戲現(xiàn)在被稱為“圖靈測(cè)試”。一個(gè)機(jī)器如果能和一個(gè)人展開對(duì)話（通過電傳設(shè)備），而不被辨別出誰是人類，誰是機(jī)器，那么我們就應(yīng)該認(rèn)為這臺(tái)機(jī)器具有智能，即它是能思考的，具有理解能力。

　　不幸的是，圖靈低估了人類被機(jī)器愚弄的傾向。即使是簡單的聊天機(jī)器人，比如德裔美國計(jì)算機(jī)科學(xué)家約瑟夫·魏森鮑姆在20世紀(jì)60年代發(fā)明的人工智能心理治療師“Eliza”，也會(huì)欺騙人們，讓他們相信自己是在和一個(gè)善解人意的人交談，即使知道他們的談話對(duì)象是一臺(tái)機(jī)器。

　　在2012年的一篇論文中，計(jì)算機(jī)科學(xué)家赫克托·萊韋斯克、歐內(nèi)斯特·戴維斯和萊奧拉·摩根斯坦提出了一個(gè)更客觀的機(jī)器智能測(cè)試，他們稱之為“威諾格拉德模式挑戰(zhàn)”（Winograd schema challenge，簡稱WSC）。這項(xiàng)測(cè)試已經(jīng)被人工智能語言社區(qū)采用，作為評(píng)估機(jī)器理解能力的一種方式，也許是最好的方式——盡管目前來看還尚不完美。該測(cè)試以斯坦福大學(xué)語言研究者和計(jì)算機(jī)科學(xué)家特里·威諾格拉德的名字命名，由兩個(gè)句子組成，二者僅有一個(gè)單詞不同，然后緊接著一個(gè)問題。機(jī)器需要識(shí)別問題中的前指關(guān)系，即指出問題中某一代詞的先行詞。為了正確回答問題，機(jī)器需要擁有常識(shí)推理的能力。以下是兩個(gè)例子：

　　句子1：我把水從瓶子里倒進(jìn)杯子里，直到它滿為止。

　　問題：什么滿了，瓶子還是杯子？

　　句子2：我把瓶子里的水倒進(jìn)杯子里，直到它空為止。

　　問題：什么空了，瓶子還是杯子？

　　句子1：喬的叔叔打網(wǎng)球仍然能贏他，盡管他大了30歲。

　　問題：誰更年長，喬還是喬的叔叔？

　　句子2：喬的叔叔打網(wǎng)球仍然能贏他，盡管他年輕了30歲。

　　問題：誰更年輕，喬還是喬的叔叔？

　　對(duì)于特定的威諾格拉德模式集，神經(jīng)網(wǎng)絡(luò)語言模型達(dá)到了約97%的準(zhǔn)確率。這大致可以和人類的表現(xiàn)相媲美。

　　在每一對(duì)句子中，一個(gè)詞的差異可以改變代詞指的是什么東西或什么人。正確回答這些問題需要一定的常識(shí)推理能力。威諾格拉德模式的設(shè)計(jì)正是為了測(cè)試這種理解能力，減輕了圖靈測(cè)試在不可靠的人類判斷或聊天機(jī)器人技巧下的弱點(diǎn)。特別是，該挑戰(zhàn)的作者設(shè)計(jì)了幾百種他們認(rèn)為是“無法搜索”的模式：機(jī)器不應(yīng)該使用谷歌搜索（或類似的任何東西）來獲得正確的問題答案。

　　威諾格拉德模式是2016年舉行的一場比賽的主題，在比賽中獲勝的程序只理解對(duì)了58%的句子——很難說比瞎猜的結(jié)果好多少。人工智能研究專家奧倫·埃齊奧尼打趣道：“當(dāng)人工智能無法確定一個(gè)句子中的‘它’指的是什么時(shí)，很難相信它會(huì)接管世界。”

　　然而，由于大型神經(jīng)網(wǎng)絡(luò)語言模型的出現(xiàn)，人工智能程序解決威諾格拉德模式挑戰(zhàn)的能力正迅速提升。OpenAI公司在2020年的一篇論文報(bào)告稱，在威諾格拉德模式的基準(zhǔn)測(cè)試集中，GPT-3在近90%的句子上是正確的。其他的語言模型在經(jīng)過這些任務(wù)的專門訓(xùn)練后，表現(xiàn)得甚至更好。在撰寫本文時(shí)，神經(jīng)網(wǎng)絡(luò)語言模型在一組特定的威諾格拉德模式——SuperGLUE基準(zhǔn)測(cè)試數(shù)據(jù)集的一部分——上達(dá)到了約97%的準(zhǔn)確率。如此高的準(zhǔn)確性已經(jīng)大致相當(dāng)于人類的表現(xiàn)。那么，這是否意味著神經(jīng)網(wǎng)絡(luò)語言模型已經(jīng)獲得了類似人類的理解能力？

　　不一定。盡管創(chuàng)建者盡了最大的努力，但這些威諾格拉德模式實(shí)際上并不能“免于谷歌搜索”。這些挑戰(zhàn)，就像目前許多其他人工智能語言理解測(cè)試一樣，有時(shí)會(huì)允許神經(jīng)網(wǎng)絡(luò)在沒有理解的情況下也能很好地運(yùn)行。例如，考慮以下句子，“跑車超過了郵車，因?yàn)樗旭偟酶臁焙汀芭苘嚦^了郵車，因?yàn)樗旭偟酶?。一個(gè)在大量英語句子語料庫上訓(xùn)練的語言模型會(huì)歸納“跑車”和“快”、“郵車”和“慢”之間的相關(guān)性，從而可以僅基于這些相關(guān)性而不是利用任何理解能力來做出正確回答。結(jié)果是，在SuperGLUE測(cè)試中，許多威諾格拉德模式允許使用這種類型的統(tǒng)計(jì)相關(guān)性。

　　艾倫人工智能研究所的一組研究人員沒有放棄將威諾格拉德模式作為機(jī)器智能理解能力的測(cè)試，而是嘗試解決其存在的一些問題。2019年，他們創(chuàng)建了“WinoGrande”，一個(gè)更大的威諾格拉德模式集。WinoGrande包含了多達(dá)44000個(gè)語句，而不是僅有數(shù)百個(gè)例子。為了獲得如此大量的語句，研究人員求助于流行的眾包工作平臺(tái)“亞馬遜土耳其機(jī)器人”（Amazon Mechanical Turk）。在這個(gè)平臺(tái)上，每個(gè)（人類）工作者被要求寫下幾對(duì)句子，并加上一些約束，以確保集合中包含不同的主題。不過，現(xiàn)在每對(duì)句子中可能會(huì)有不止一個(gè)單詞的差異。

　　然后，研究人員試圖將一種相對(duì)簡單的人工智能方法應(yīng)用到每個(gè)句子上，剔除那些過于容易回答的句子，從而消除可能出現(xiàn)的統(tǒng)計(jì)捷徑。正如預(yù)期的那樣，對(duì)機(jī)器來說，剩下的句子比最初的威諾格拉德模式集要困難得多。人類的得分仍然很高，但與人類表現(xiàn)相匹配的神經(jīng)網(wǎng)絡(luò)語言模型在WinoGrande集合中的得分要低得多。這個(gè)新的挑戰(zhàn)似乎彌補(bǔ)了威諾格拉德模式作為常識(shí)理解測(cè)試的缺陷——只要句子經(jīng)過仔細(xì)篩選，就能確保它們不受“谷歌搜索”的影響。

　　然而，一個(gè)新的驚喜正在醞釀。在WinoGrande模式集發(fā)布后的近兩年時(shí)間里，神經(jīng)網(wǎng)絡(luò)語言模型變得越來越大，它們?cè)谶@個(gè)新挑戰(zhàn)中的得分似乎也越來越高。在撰寫本文時(shí)，目前最好的程序——已經(jīng)在太字節(jié)（TB）級(jí)別的文本上進(jìn)行了訓(xùn)練，然后在數(shù)以千計(jì)的WinoGrande示例上進(jìn)行了進(jìn)一步的訓(xùn)練——準(zhǔn)確率接近90%（人類的準(zhǔn)確率約為94%）。這種表現(xiàn)的提升幾乎完全歸功于神經(jīng)網(wǎng)絡(luò)語言模型及其訓(xùn)練數(shù)據(jù)規(guī)模的增加。

　　那么，這些規(guī)模越來越大的神經(jīng)網(wǎng)絡(luò)最終能獲得像人類一樣的常識(shí)理解能力嗎？答案同樣是否定的。WinoGrande的研究結(jié)果有一些重要的警示。例如，由于句子依賴于“亞馬遜土耳其機(jī)器人”的工作者，寫作的質(zhì)量和連貫性相當(dāng)不均衡。同時(shí)，在清除“不能免于谷歌搜索”的句子時(shí)，“不夠成熟”的人工智能方法可能過于簡單，不僅找出了所有可能用于大型神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)捷徑，而且可能只應(yīng)用在個(gè)別句子上，導(dǎo)致一些余下的句子最終失去了“孿生語句”。一項(xiàng)后續(xù)研究表明，當(dāng)神經(jīng)網(wǎng)絡(luò)語言模型只對(duì)兩個(gè)“孿生”句子進(jìn)行測(cè)試——并且要求兩個(gè)句子都正確——的時(shí)候，其準(zhǔn)確率要比人類低得多。這意味著，早先準(zhǔn)確率接近90%的結(jié)果并沒有看上去的那么顯著。

　　那么，我們應(yīng)該如何看待威諾格拉德模式挑戰(zhàn)？主要的教訓(xùn)是，我們通常很難從人工智能系統(tǒng)在特定挑戰(zhàn)中的表現(xiàn)來判斷它們是否真正理解其所處理的語言（或其他數(shù)據(jù)）。我們現(xiàn)在知道，神經(jīng)網(wǎng)絡(luò)經(jīng)常使用統(tǒng)計(jì)捷徑——而不是實(shí)際類似于人類的理解能力——以在威諾格拉德模式以及許多最流行的“通用語言理解”基準(zhǔn)測(cè)試中獲得上佳表現(xiàn)。

　　問題的關(guān)鍵在于，理解語言的前提是理解世界，而只接觸語言的機(jī)器無法獲得這樣的理解。例如，讓我們理解一下“跑車超過了郵車，因?yàn)樗旭偟酶臁边@句話是什么意思。首先，你需要知道跑車和郵車分別是什么，而兩種車之間可以互相“超車”；此外，在更基本的層面上，車輛存在于這個(gè)世界上，能與其他事物產(chǎn)生互動(dòng)，而且由人類駕駛，有著各自的用途。

　　在我們?nèi)祟惖恼J(rèn)知中，所有這些都是理所當(dāng)然的知識(shí)，但它們并沒有內(nèi)置在機(jī)器當(dāng)中，也不可能明確地記錄在任何語言模型的訓(xùn)練文本中。一些認(rèn)知科學(xué)家認(rèn)為，人類依靠先天的、非語言的核心知識(shí)來學(xué)習(xí)和理解語言，這些核心知識(shí)包含了空間、時(shí)間和其他許多關(guān)于世界的基本屬性。如果我們想讓機(jī)器同樣掌握人類語言，首先就需要賦予它們?nèi)祟惻c生俱來的基本原則。在評(píng)估機(jī)器的理解能力時(shí)，我們應(yīng)該從評(píng)估它們對(duì)這些原則的理解開始，這或許可以稱為“嬰兒形而上學(xué)”。

　　與沃森和GPT-3等人工智能系統(tǒng)的驚人成就相比，訓(xùn)練和評(píng)估嬰兒水平的機(jī)器智能似乎是一個(gè)巨大的倒退。但如果我們的目標(biāo)是讓人工智能擁有真實(shí)可信的理解能力，這可能是唯一的途徑；只有這樣，機(jī)器才能真正理解句子中的“它”指的是什么，同時(shí)也理解與“它”有關(guān)的其他所有一切。

上一篇：《科學(xué)》公布2021年度十大科學(xué)突破！

下一篇：持續(xù)成長？預(yù)估2022年服務(wù)器整機(jī)出貨量年增4-5%

香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放