香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

大模型真的在吞噬人類的一切數(shù)據(jù)嗎?

在弗蘭克·赫伯特的《沙丘》中,沙漠星球厄拉科斯的沙丘下隱藏著一種無價(jià)之寶:香料。

這種神秘物質(zhì)使太空旅行成為可能,能延長壽命,并具有擴(kuò)展意識(shí)的效果,是宇宙中最寶貴的財(cái)富。“誰控制了香料,誰就控制了宇宙”。正如香料在《沙丘》宇宙中占據(jù)著至關(guān)重要的地位一樣,在當(dāng)今的生成式人工智能時(shí)代,數(shù)據(jù)也承載著類似角色。

就像《沙丘》中對(duì)香料的爭奪,現(xiàn)實(shí)世界里各方勢(shì)力也在為數(shù)據(jù)資源展開激烈角逐。海量的數(shù)據(jù)如同埋藏在數(shù)字世界沙丘下的“香料”,蘊(yùn)藏著難以估量的價(jià)值。而那些能夠高效采集、管理和利用數(shù)據(jù)的企業(yè),就像小說中控制香料的勢(shì)力,在這場數(shù)據(jù)爭奪戰(zhàn)中占據(jù)著優(yōu)勢(shì)地位。

如同香料在《沙丘》宇宙中的供應(yīng)并不是無限的如果開采過度或生態(tài)系統(tǒng)受到破壞,香料的產(chǎn)量可能會(huì)大幅減少甚至耗盡,數(shù)據(jù)也可能被耗盡。根據(jù)非營利研究機(jī)構(gòu)Epoch AI的最新論文,大語言模型會(huì)在2028年耗盡互聯(lián)網(wǎng)文本數(shù)據(jù)。

大模型真的在吞噬人類的一切數(shù)據(jù)嗎?我們是否正處在一個(gè)看似無盡的數(shù)字香料狂潮中,不斷地向這些饑渴的大模型提供養(yǎng)分?

預(yù)計(jì)在未來幾年內(nèi)可能會(huì)耗盡現(xiàn)有的公共文本數(shù)據(jù)存量

人類生成的數(shù)據(jù)量有限,一旦這些文本數(shù)據(jù)被耗盡,可能會(huì)成為約束語言模型繼續(xù)擴(kuò)展的主要瓶頸。相關(guān)論文認(rèn)為,語言模型將在2026年到2032年之間利用完這些數(shù)據(jù),但如果考慮到利潤最大化,過度訓(xùn)練數(shù)據(jù)可能會(huì)導(dǎo)致數(shù)據(jù)在2025年就被用完。

月之暗面創(chuàng)始人楊植麟也在近期表達(dá)了類似觀點(diǎn),他認(rèn)為大模型通向AGI最大的挑戰(zhàn)是數(shù)據(jù)。楊植麟表示,“假設(shè)你想最后做一個(gè)比人類更好的AI,但可能根本不存在這樣的數(shù)據(jù),因?yàn)楝F(xiàn)在所有的數(shù)據(jù)都是人產(chǎn)生的。所以最大的問題是怎么解決這些比較稀缺、甚至一些不存在的數(shù)據(jù)。”

根據(jù)Epoch研究員Pablo Villalobos的觀點(diǎn),OpenAI在訓(xùn)練GPT-4時(shí)使用了大約1200萬個(gè)token,GPT-5需要60到100萬億個(gè)token才能跟上預(yù)期的增長。關(guān)鍵在于即使用盡互聯(lián)網(wǎng)上所有可能的高質(zhì)量數(shù),仍然需要10萬到20萬億token,甚至更多。

面對(duì)如此龐大的數(shù)據(jù)需求,合成數(shù)據(jù)也是一個(gè)學(xué)術(shù)界和產(chǎn)業(yè)界都在嘗試的重要方向。合成數(shù)據(jù)基于現(xiàn)有數(shù)據(jù)進(jìn)行擴(kuò)充,這種能力對(duì)未來的訓(xùn)練數(shù)據(jù)規(guī)模至關(guān)重要。不過,用AI生成的數(shù)據(jù)進(jìn)行訓(xùn)練也存在一些局限性,例如可能導(dǎo)致模型崩潰等問題。

目前,大模型廠商主要從網(wǎng)絡(luò)上抓取科學(xué)論文、新聞文章、維基百科等公開信息來訓(xùn)練模型。從長遠(yuǎn)來看,僅依靠新聞文章和社交媒體等內(nèi)容可能無法維持人工智能的發(fā)展需求。這可能迫使企業(yè)開始利用一些敏感的私有數(shù)據(jù),如電子郵件、聊天記錄等,或不得不依賴于聊天機(jī)器人自身生成的質(zhì)量不高的數(shù)據(jù)。

數(shù)據(jù)不夠用是“杞人憂天”?

沒有數(shù)據(jù)就無法訓(xùn)練大語言模型,但數(shù)據(jù)真的不夠用了嗎?對(duì)于這一問題,也有人持有不一樣的觀點(diǎn)。

星環(huán)科技孫元浩認(rèn)為,這是一個(gè)“假新聞的判斷”。在他看來,除了現(xiàn)有互聯(lián)網(wǎng)的存量數(shù)據(jù),各個(gè)企業(yè)內(nèi)部還有大量的數(shù)據(jù)沒有被利用,“現(xiàn)在數(shù)據(jù)多到遠(yuǎn)遠(yuǎn)超過模型可以處理的量”。

“大模型結(jié)構(gòu)和訓(xùn)練方法都不是秘密了,而語料散落在各種地方,需要把現(xiàn)有語料整理起來訓(xùn)練或微調(diào)模型,工作量非常巨大,這是目前最大的挑戰(zhàn)?!睂O元浩告訴硅星人。

其中的一個(gè)重要問題,是數(shù)據(jù)處理范式從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)變。結(jié)構(gòu)化數(shù)據(jù),例如數(shù)據(jù)庫中的表格數(shù)據(jù),有明確的字段和格式,易于存儲(chǔ)和查詢。而文本文檔、合同協(xié)議、教材等非結(jié)構(gòu)化數(shù)據(jù),雖然包含豐富的信息和知識(shí),但由于缺乏統(tǒng)一的格式,難以直接存儲(chǔ)和檢索,企業(yè)內(nèi)部的非結(jié)構(gòu)化數(shù)據(jù)往往也需要更專業(yè)的數(shù)據(jù)標(biāo)注處理。

為此,星環(huán)試圖通過提供包括語料處理、模型訓(xùn)練、知識(shí)庫建設(shè)在內(nèi)的工具鏈,提升企業(yè)的數(shù)據(jù)處理能力?!拔覀円庾R(shí)到不可能一個(gè)模型通曉各個(gè)領(lǐng)域,企業(yè)核心機(jī)密是不可能讓你知道的,我們定位為提供工具幫你做訓(xùn)練,你自己煉一個(gè)模型?!?/p>

挖掘企業(yè)內(nèi)部數(shù)據(jù)重要性的另外一個(gè)例證是摩根大通擁有150PB的專有數(shù)據(jù)集,而GPT-4僅在不到1PB的數(shù)據(jù)上訓(xùn)練。不過兩者的數(shù)據(jù)在質(zhì)量、類型和用途上存在顯著差異。大模型面臨的挑戰(zhàn)主要在于獲取高質(zhì)量、多樣化且合法可用的訓(xùn)練數(shù)據(jù),而非簡單的數(shù)據(jù)量不足。

對(duì)于“數(shù)據(jù)荒”,數(shù)據(jù)服務(wù)商景聯(lián)文科技創(chuàng)始人劉云濤也表達(dá)了類似觀點(diǎn)?!拔覀儸F(xiàn)在真實(shí)數(shù)據(jù)都來不及處理,數(shù)據(jù)不夠是杞人憂天了?!彼蚬栊侨吮硎?,“我預(yù)估洗完之后,中國的高質(zhì)量數(shù)據(jù)大概是有150TB,世界上還有很多個(gè)國家?!?/p>

他認(rèn)為目前存在的問題主要在于高質(zhì)量的數(shù)據(jù)的問題,涉及到數(shù)據(jù)清洗、數(shù)據(jù)工程。

劉云濤表示,大模型時(shí)代的核心變化首先是數(shù)據(jù)量變大了,“以前一個(gè)題庫10 萬、20萬道已經(jīng)很大的項(xiàng)目?,F(xiàn)在以億為單位,技術(shù)處理能力就變得非常重要了,因?yàn)槟悴豢赡芸咳斯ぁ!?/p>

第二個(gè)變化在標(biāo)準(zhǔn)環(huán)節(jié),需要引入專業(yè)領(lǐng)域的人工標(biāo)注,“原來人工標(biāo)注和自動(dòng)化標(biāo)注是一個(gè)平行的關(guān)系,那現(xiàn)在更像是技術(shù)標(biāo)注放在前一輪,后一輪是專家級(jí)的標(biāo)注?!?/p>

專家級(jí)標(biāo)注指的是一種更高級(jí)別、更精細(xì)的人工標(biāo)注過程,這種標(biāo)注工作通常需要專業(yè)知識(shí),能夠?qū)ψ詣?dòng)化標(biāo)注的結(jié)果進(jìn)行校正和優(yōu)化,以確保數(shù)據(jù)集的高質(zhì)量。與此前的用低成本勞動(dòng)力完成的簡單數(shù)據(jù)標(biāo)注工作也有所不同。據(jù)稱,OpenAI內(nèi)部就有一個(gè)幾十名博士級(jí)別的專業(yè)人士組成的團(tuán)隊(duì)來做標(biāo)注。

大模型廠商在處理數(shù)據(jù)時(shí)遵循的流程通常包括幾個(gè)環(huán)節(jié):首先,數(shù)據(jù)從各渠道獲取被獲取后,進(jìn)入數(shù)據(jù)工程部門。數(shù)據(jù)工程師會(huì)對(duì)數(shù)據(jù)進(jìn)行清洗和預(yù)處理。接著,處理好的數(shù)據(jù)會(huì)被交給算法部門,算法部門會(huì)利用多種方法進(jìn)一步處理,包括調(diào)參、通過監(jiān)督學(xué)習(xí)對(duì)模型進(jìn)行微調(diào)(SFT),以及使用人類反饋來強(qiáng)化學(xué)習(xí)模型(RLHF),經(jīng)過這些步驟處理后的數(shù)據(jù),最終會(huì)被應(yīng)用到具體的任務(wù)或產(chǎn)品中。

在這一過程中,大模型廠商的核心的需求是從分布在各處的數(shù)據(jù)中提煉出可以用于微調(diào)、訓(xùn)練或持續(xù)優(yōu)化模型的高質(zhì)量數(shù)據(jù)。

Scale.AI專注于為企業(yè)客戶提供訓(xùn)練數(shù)據(jù)的數(shù)據(jù)標(biāo)注開發(fā)。該平臺(tái)采用自動(dòng)化標(biāo)注、半自動(dòng)化標(biāo)注和人工審核等先進(jìn)技術(shù),提高標(biāo)注的速度和準(zhǔn)確性,并提供數(shù)據(jù)管理和質(zhì)量控制工具。

在劉云濤看來,Scale.AI的核心不在于有很多數(shù)據(jù),而是擁有快速處理數(shù)據(jù)的能力。“Scale AI建立了一整套數(shù)據(jù)清洗的流程,另外還建立了一套數(shù)據(jù)引擎,能形成真正的數(shù)據(jù)飛輪,這是個(gè)流程性的技術(shù)的問題?!?/p>

開源數(shù)據(jù)的困境

大語言模型之所以能夠展現(xiàn)出驚人的理解和生成能力,是因?yàn)閺暮A康念A(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)了豐富的世界知識(shí)。而開源數(shù)據(jù),如網(wǎng)頁、書籍、新聞、論文等,正是這些預(yù)訓(xùn)練語料的重要來源。通過開放共享,開源數(shù)據(jù)為模型提供了廣泛而多樣的知識(shí)來源,使其能夠?qū)W習(xí)到人類社會(huì)的方方面面。可以說,沒有開源數(shù)據(jù)的支撐,大語言模型就難以獲得足夠的“知識(shí)養(yǎng)料”來實(shí)現(xiàn)快速發(fā)展。

由社區(qū)和非營利組織推動(dòng)的開源數(shù)據(jù)項(xiàng)目,為語言模型的訓(xùn)練提供了豐富多樣的語料,對(duì)推動(dòng)了自然語言處理技術(shù)的發(fā)展至關(guān)重要。智源研究院林詠華告訴硅星人“如果沒有Common Crawl,整個(gè)大模型的發(fā)展都會(huì)延后?!?/p>

她也指出了一個(gè)相關(guān)的問題,國外志愿者參與的開源數(shù)據(jù)集的建設(shè),如BookCorpus、古騰堡工程都積累數(shù)年時(shí)間,而在國內(nèi)很少有人做類似的事情,這就造成了中文數(shù)據(jù)的數(shù)據(jù)孤島問題。

人工智能開源開放數(shù)據(jù)平臺(tái)OpenDataLab相關(guān)負(fù)責(zé)人告訴硅星人,數(shù)據(jù)資源持有方普遍存在的一個(gè)顧慮是無法明確數(shù)據(jù)開源行為對(duì)自身的價(jià)值,單純的數(shù)據(jù)開源對(duì)于中小型企業(yè)很難形成短期的回報(bào)。“從投資與回報(bào)角度看,企業(yè)如果開源模型,其帶來的技術(shù)的迭代和創(chuàng)新,對(duì)企業(yè)來講無疑是一種回報(bào),而開源數(shù)據(jù)則幾乎是純‘利他’的行為,很難有實(shí)際的收益?!?/p>

因此,相較于國外由非營利機(jī)構(gòu)推動(dòng),國內(nèi)各類事業(yè)單位在推動(dòng)數(shù)據(jù)開源的過程中扮演了十分重要的角色。不過,隨著用戶規(guī)模和數(shù)據(jù)需求的增長,也為各類數(shù)據(jù)開源社區(qū)的資金與存儲(chǔ)等帶來了現(xiàn)實(shí)挑戰(zhàn)。

OpenDataLab從公開數(shù)據(jù)收錄、開源平臺(tái)建設(shè)、數(shù)據(jù)工具研發(fā)、高質(zhì)量原創(chuàng)數(shù)據(jù)集發(fā)布、生態(tài)合作等多方面入手,正在著手推動(dòng)解決研究和開發(fā)中數(shù)據(jù)需求。

OpeninDataLab表示,中文大規(guī)模數(shù)據(jù)集在開源程度、規(guī)模以及質(zhì)量方面與英文數(shù)據(jù)集相比存在差距,這在一定程度上制約了中文自然語言處理技術(shù)的發(fā)展。目前OpenDataLab已經(jīng)聯(lián)合多家機(jī)構(gòu),發(fā)布了一系列原創(chuàng)高質(zhì)量的大規(guī)模AI數(shù)據(jù)集,他們也希望能與更多機(jī)構(gòu)一道,通過合作來邀請(qǐng)更多人參與到數(shù)據(jù)開源事業(yè)中來。

在公共數(shù)據(jù)開放和社會(huì)力量方面,中國與美國存在一些差異,美國政府在公共數(shù)據(jù)開放中扮演著重要角色,致力于“應(yīng)開盡開”。政府建立專門的AI訓(xùn)練數(shù)據(jù)開放平臺(tái),對(duì)數(shù)據(jù)進(jìn)行標(biāo)識(shí)、清洗、標(biāo)注等處理,并提供便捷的檢索和接口服務(wù)。社會(huì)力量則整合政府開放數(shù)據(jù)與網(wǎng)絡(luò)公開數(shù)據(jù),以開源為主形成高質(zhì)量訓(xùn)練語料,并在行業(yè)大模型中貢獻(xiàn)專業(yè)性。

中國的公共數(shù)據(jù)共享和利用程度上仍有不足。部分領(lǐng)域如天氣、司法的數(shù)據(jù)開放不如美國充分,在開發(fā)利用中也缺乏API支持。社會(huì)力量主要結(jié)合海外開源數(shù)據(jù)和國內(nèi)網(wǎng)絡(luò)公開數(shù)據(jù)形成訓(xùn)練集在行業(yè)大模型中,社會(huì)力量雖有貢獻(xiàn),但受限于專業(yè)門檻高、企業(yè)共享意愿低、公共數(shù)據(jù)開放不足等困難。

數(shù)據(jù)采集中的“灰度”

生成式人工智能的發(fā)展主要依賴大模型以及對(duì)大模型的數(shù)據(jù)訓(xùn)練,數(shù)據(jù)訓(xùn)練又離不開大規(guī)模的數(shù)據(jù)爬取。數(shù)據(jù)采集是產(chǎn)業(yè)鏈的起點(diǎn),涉及從互聯(lián)網(wǎng)、社交媒體、公共數(shù)據(jù)庫等多個(gè)渠道收集原始數(shù)據(jù)。這一環(huán)節(jié)需要遵守?cái)?shù)據(jù)隱私和版權(quán)法規(guī),確保數(shù)據(jù)來源的合法性。隨著技術(shù)的發(fā)展,自動(dòng)化工具如網(wǎng)絡(luò)爬蟲被廣泛使用,但同時(shí)也帶來了數(shù)據(jù)隱私和安全等問題。

五號(hào)雷達(dá)相關(guān)負(fù)責(zé)人童君告訴硅星人,數(shù)據(jù)爬取方面,Robots協(xié)議在網(wǎng)絡(luò)數(shù)據(jù)獲取是一種行業(yè)內(nèi)的約定俗成。不過Robots協(xié)議遵循基于爬蟲的自覺性,并不能從根本上阻止數(shù)據(jù)的獲取?!斑@個(gè)行業(yè)水下的產(chǎn)業(yè)占80%,比如場外項(xiàng)目制的數(shù)據(jù)購買,數(shù)據(jù)進(jìn)行二次加工之后,源頭的數(shù)據(jù)是來自于哪里?這個(gè)東西沒辦法追溯?!?/p>

景聯(lián)文創(chuàng)始人劉云濤則建議從“灰度”的角度來看待這個(gè)問題,“一個(gè)全新的行業(yè),無論從國家到企業(yè)、個(gè)人都在探索,一定是有灰度的”。他認(rèn)為,在大數(shù)據(jù)和人工智能的新興行業(yè)中,存在著一些灰色地帶,主張應(yīng)該用技術(shù)手段將灰色地帶變成白色,合法合規(guī)。

景聯(lián)文用技術(shù)手段如SFT或人工標(biāo)注,將獲取的數(shù)據(jù)轉(zhuǎn)化為可交付使用的數(shù)據(jù),建立高質(zhì)量大模型訓(xùn)練數(shù)據(jù)集。他打了個(gè)比方,就像“別人在野地里采摘的白菜,經(jīng)過他們的加工,變成了預(yù)制菜?!?/p>

隨著數(shù)據(jù)被定義為新的生產(chǎn)要素,全國各地紛紛成立了大量的數(shù)據(jù)交易所和交易中心。成為解決行業(yè)內(nèi)的灰色地帶問題,提高市場參與者的安全感的一種新的機(jī)制。

截至目前,國內(nèi)已成立了超過40家數(shù)據(jù)交易所,包括上海數(shù)交所、貴陽大數(shù)據(jù)交易所和北京國際大數(shù)據(jù)交易所等。這些交易所通過搭建數(shù)據(jù)要素流通平臺(tái),提供數(shù)據(jù)供需對(duì)接撮合機(jī)制,以釋放數(shù)據(jù)要素的價(jià)值。

劉云濤認(rèn)為,數(shù)據(jù)交易所是一個(gè)顯著中國特色的新興市場,但建立一個(gè)有效的數(shù)據(jù)交易體系還需要大量的工作來完善?!澳懿荒苷嬲鉀Q數(shù)商和購買方之間的問題?如果交易所只是讓我們付出,不能給我們帶來收益,那就沒有意義,這個(gè)事是需要時(shí)間的?!?/p>

五號(hào)雷達(dá)童君也表示,“大模型廠商基本上不會(huì)去交易所買數(shù)據(jù)。不是說今天我來做大模型,然后買一堆數(shù)據(jù)回來?!?/p>

據(jù)介紹,數(shù)據(jù)交易市場目前存在多種模式。有的大公司建立了平臺(tái),提供數(shù)據(jù)產(chǎn)品和數(shù)據(jù)集,主要以API形式供企業(yè)購買服務(wù)。此外,還存在針對(duì)特定項(xiàng)目的定制化數(shù)據(jù)購買模式。在這種情況下,買方了解數(shù)據(jù)的來源(如氣象局)。并直接與擁有數(shù)據(jù)的機(jī)構(gòu)或企業(yè)進(jìn)行交易。

“是時(shí)候把數(shù)據(jù)Scale Down了”

LLaMA3通過將訓(xùn)練數(shù)據(jù)從2T增加到15T,即使模型架構(gòu)保持不變,模型性能得到了顯著提升,然而,這種“暴力擴(kuò)展”的方法雖然有效,但也面臨著邊際效應(yīng)遞減和資源消耗增加的問題。

語料規(guī)模并非越大越好,而是高信息密度的語料規(guī)模越大越好:Common Crawl是400TB的數(shù)據(jù)集,包含了互聯(lián)網(wǎng)上數(shù)十億網(wǎng)頁,內(nèi)容非常廣泛但未經(jīng)清洗。而C4則是對(duì)CC進(jìn)行了過濾噪聲、重復(fù)內(nèi)容等清洗后的305GB數(shù)據(jù)集。經(jīng)評(píng)估發(fā)現(xiàn)基于C4訓(xùn)練的模型性能優(yōu)于CC,這既說明了數(shù)據(jù)清洗的重要性,也說明了語料規(guī)模不能一味追求大。

近期,DCLM項(xiàng)目組,從Common Crawl中成功提取并清洗出240T的數(shù)據(jù),也為數(shù)據(jù)規(guī)模增加的可行性提供了新的證據(jù)。這一進(jìn)展為數(shù)據(jù)的“Scale Up”策略提供了支持,但同時(shí)也提醒人們注意到數(shù)據(jù)處理和清洗背后的計(jì)算成本。

清華博士秦禹嘉表示,前scaling law時(shí)代我們強(qiáng)調(diào)的是scale up,即努力追求數(shù)據(jù)壓縮后的模型智能上限,后scaling law時(shí)代大家比拼的是scale down,即誰能訓(xùn)練出“性價(jià)比”更高的模型。

例如,PbP團(tuán)隊(duì)利用較小模型的性能評(píng)價(jià)來過濾數(shù)據(jù),從而提升大型模型的訓(xùn)練效果和收斂速度。類似地,DeepSeek通過使用fastText來清洗高質(zhì)量數(shù)據(jù),為特定場景下的模型訓(xùn)練提供了優(yōu)質(zhì)數(shù)據(jù)。

這些研究成果暗示,通過徹底優(yōu)化數(shù)據(jù)的質(zhì)量,小型模型的訓(xùn)練效果可以接近或等同于使用大規(guī)?!芭K數(shù)據(jù)”訓(xùn)練的大型模型。這不僅示范了數(shù)據(jù)清洗在提升模型效率中的重要性,也說明在某些情況下,模型的參數(shù)規(guī)模并非越大越好,關(guān)鍵在于如何有效地利用每一份數(shù)據(jù)。

隨著AI領(lǐng)域的不斷發(fā)展,這種對(duì)“效率”和“質(zhì)量”的追求正在成為研究和實(shí)踐中的新趨勢(shì)。未來,數(shù)據(jù)處理的方法,包括數(shù)據(jù)去噪、改寫預(yù)訓(xùn)練數(shù)據(jù)等策略,將成為推動(dòng)大模型發(fā)展的關(guān)鍵因素。同時(shí),這也意味著數(shù)據(jù)質(zhì)量可能成為衡量AI模型性能的新標(biāo)準(zhǔn),而不僅僅是數(shù)據(jù)規(guī)模。

在當(dāng)今快速發(fā)展的人工智能領(lǐng)域,數(shù)據(jù)成為了推動(dòng)技術(shù)前進(jìn)的基石,它的角色越來越像《沙丘》中珍貴的香料——無處不在,價(jià)值巨大。隨著對(duì)數(shù)據(jù)需求的增長,如何有效地收集、處理和利用這些“數(shù)字香料”成為了關(guān)鍵問題。從提高數(shù)據(jù)質(zhì)量到拓寬數(shù)據(jù)獲取渠道,未來的AI發(fā)展不僅取決于我們?nèi)绾螒?yīng)對(duì)這些挑戰(zhàn),更在于我們?nèi)绾卧跀?shù)據(jù)的海洋中探尋新的可能。正如《沙丘》展示的那樣,真正的力量來自于對(duì)這些資源的理解和利用——誰解決好了數(shù)據(jù)問題,誰就擁有了未來的鑰匙。

《沙丘》中的領(lǐng)航員通過食用香料獲得了預(yù)測未來的能力,人工智能算法通過處理大量數(shù)據(jù)集,發(fā)現(xiàn)模式和趨勢(shì)。在《沙丘》宇宙中,人類在香料混合物的影響下進(jìn)化,獲得新的能力并經(jīng)歷意識(shí)的重大飛躍。同樣,人工智能乃至AGI的發(fā)展也可能會(huì)為人類帶來類似的深遠(yuǎn)影響。

只不過如果知道十年前在社交媒體上發(fā)布的內(nèi)容,有朝一日會(huì)成為推動(dòng)技術(shù)進(jìn)步的“香料”,或許我們會(huì)更加慎重地對(duì)待自己的數(shù)字足跡。


相關(guān)內(nèi)容