香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

瘋狂污染互聯(lián)網(wǎng) 人類比AI擅長多了

人們最擔(dān)心的事情還是發(fā)生了。

一位網(wǎng)友在提問 New Bing 時,答案出現(xiàn)了事實性錯誤,他點開參考鏈接時發(fā)現(xiàn),作為引用源的知乎回答,居然也是 AI 生成的。

回看這個知乎賬號,遣詞造句盡顯 AI 風(fēng)味,答題速度迅雷不及掩耳,目前已經(jīng)被禁言了。

圖片

被看到的冰山一角,指向了一個惡性循環(huán):AI 生成錯誤信息,這些信息又被喂給更多的 AI,導(dǎo)致互聯(lián)網(wǎng)的信息質(zhì)量越來越差。

但硬要較真,AI 污染互聯(lián)網(wǎng),不全是 AI 的鍋。

AI 造假,神乎其技

生成式 AI 有概率輸出錯誤信息,這是刻進(jìn) DNA 的頑疾,聯(lián)網(wǎng)能夠緩解部分癥狀,因為可以參考多個信息源,但沒想到這么快,我們因此陷入了新的混沌,正如古早的計算機(jī)格言:

garbage in, garbage out(垃圾進(jìn),垃圾出)。

AI 正在悄悄創(chuàng)作越來越多的「假冒偽劣」,說不定你在沖浪的時候就遇到過。

國內(nèi)外已經(jīng)發(fā)生了好幾起 AI 假新聞事件。

今年 4 月,多達(dá) 21 個賬號同時發(fā)布了一條駭人聽聞的消息:甘肅一火車撞上修路工人,致 9 人死亡。

網(wǎng)警初步判斷信息不實,鎖定了深圳某自媒體公司,經(jīng)過取證后發(fā)現(xiàn),犯罪嫌疑人在全網(wǎng)搜索近幾年社會熱點新聞,并通過 ChatGPT 修改編輯,再將內(nèi)容多次上傳。

國外知名科技媒體 CNET,也在年初被曝光用 AI 偷偷生成文章,其中 77 篇存在不少錯誤。

新聞可信度評級機(jī)構(gòu) NewsGuard 甚至發(fā)現(xiàn),涉及 7 種語言的 49 個新聞網(wǎng)站,內(nèi)容大部分或完全由 AI 生成。

它們「師出同門」但各有千秋,有的杜撰虛假信息,有的重寫其他媒體報道,其中產(chǎn)量高的每天發(fā)出數(shù)百篇文章。

最有趣的來了,NewsGuard 是通過搜索「As an AI language model」等 AI 常用短語發(fā)現(xiàn)這些網(wǎng)站的。連 AI 的口頭禪都不刪去,臟活也做得太過粗糙。

若在社交媒體和點評網(wǎng)站查找類似內(nèi)容,你也會發(fā)現(xiàn)無腦復(fù)制 AI 的賬號已經(jīng)大行其道。

亞馬遜一款吸塵器的虛假評價不遮不掩:「作為一個 AI 語言模型,我沒有親自使用過這個產(chǎn)品,但根據(jù)它的功能和用戶評論,我可以自信地給它打 5 星?!笰I 騙人這么誠實,背后原因令人暖心。

圖片

不只文本,圖片和視頻的深度造假也越發(fā)爐火純青。

穿著羽絨服的教皇,被視作第一個真正大規(guī)模的 AI 虛假信息案例,當(dāng)時在Twitter的瀏覽量達(dá)到 2600 多萬次。「AI 生成圖片」的說明,后來才補(bǔ)充在圖片下方。

圖片

更多的模仿隨之而來。特朗普下鄉(xiāng)再就業(yè),在街頭拉黃包車;異形體驗生活,上了一天的班然后深夜買醉……更有甚者,用 AI 生成「新聞圖片」,對不存在的歷史言之鑿鑿。

TikTok 上的「湯姆·克魯斯」,以假亂真的程度,本人看了也得犯迷糊。

風(fēng)險與你不一定隔著屏幕,也可能已經(jīng)蟄伏身邊。

今年 4 月,技術(shù)專欄作家 Joanna Stern 做了一項實驗,錄制 30 分鐘的視頻和 2 個小時的音頻,然后用 AI 克隆了自己,它甚至騙過了銀行和她的家人。

AI 讓我們對那些曾經(jīng)不容置疑的事物,也抱有基本的警惕心。

當(dāng)你連接到互聯(lián)網(wǎng),你和 AI 都會消費 AI 生成的內(nèi)容,這個時刻已經(jīng)到來。

AI 污染不僅影響現(xiàn)在,也可能帶偏未來

以上這些是 AI 污染互聯(lián)網(wǎng)的現(xiàn)狀,往后的發(fā)展可能更讓人不安。

讓人類中招的同時,回旋鏢也將打在 AI 身上。

一項英國和加拿大的研究發(fā)現(xiàn),當(dāng)人類越來越多地通過 AI 生成內(nèi)容,它們會大量進(jìn)入在線數(shù)據(jù)庫,被用來訓(xùn)練未來的 AI,如果一代又一代地延續(xù)下去,最終將導(dǎo)致「模型崩潰」。

具體來說,隨著時間的推移,AI 生成的錯誤會復(fù)合,造成從中學(xué)習(xí)的下一代 AI 更加錯誤地感知現(xiàn)實,并迅速忘記大部分原始數(shù)據(jù),無法區(qū)分事實和虛構(gòu)。研究人員打了一個生動的比喻:

就像用塑料垃圾散布海洋、用二氧化碳攻占大氣,我們即將用廢話填滿互聯(lián)網(wǎng)。

作為結(jié)果,通過抓取互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練新模型,將變得更加困難。

雪上加霜的是,內(nèi)容平臺們打算筑起城墻,讓免費的、高質(zhì)量的公開數(shù)據(jù)有了門檻。

前段時間,「美國貼吧」Reddit 計劃對 API 進(jìn)行收費,原因是他們的內(nèi)容正在被白嫖給 AI 訓(xùn)練,ChatGPT 和 Google Bard 之前都爬過 Reddit 的數(shù)據(jù)。

Reddit CEO 表示,Reddit 的語料庫非常有價值,他們不想把這些內(nèi)容免費提供給巨頭。

Reddit 的 API 收費,對 OpenAI、Google 等家底深厚的玩家影響不大,但 AI 初創(chuàng)公司獲取數(shù)據(jù)更難了。那些長期依附 Reddit 的第三方應(yīng)用,更是在這次變革中被牽連,帶頭宣布倒下。

在商言商, Reddit 可能是在自救,之前盈利主要靠廣告投放,AI 反而挖掘了 Reddit 數(shù)據(jù)的商業(yè)價值,其他 UGC 內(nèi)容平臺說不定也在打算盤,這對很多 AI 初創(chuàng)公司來說不是好事。

公開數(shù)據(jù)還不是唯一的挑戰(zhàn),不少 AI 初創(chuàng)公司想在金融、醫(yī)療等領(lǐng)域構(gòu)建垂直的 AI 模型,然而獲取專有的訓(xùn)練數(shù)據(jù)集并不容易。

擁有這些數(shù)據(jù)的企業(yè)們,更愿意和大型科技公司建立合作關(guān)系,因為巨頭的可信度更高,處理數(shù)據(jù)的方式更好,更能保障數(shù)據(jù)安全。

高質(zhì)量數(shù)據(jù)是 AI 模型的護(hù)城河,獲取數(shù)據(jù)卻或多或少地成了一場利益的博弈,將互聯(lián)網(wǎng)劃分為孤島,或者干脆排資論輩上演軍備競賽。

一方面,互聯(lián)網(wǎng)的內(nèi)容本就參差不齊,另一方面,互聯(lián)網(wǎng)又趨向封閉。未來各家的 AI 要如何接收優(yōu)質(zhì)內(nèi)容訓(xùn)練和微調(diào),成了一個懸而不決的問題。

至少在互聯(lián)網(wǎng)數(shù)據(jù)這塊,AI 還真可能「自給自足」。劍橋大學(xué)教授 Ross Anderson 指出,目前,大多數(shù)在線文本都由人類編寫,但它們已經(jīng)被用來訓(xùn)練 GPT-3.5 和 GPT-4,未來,越來越多的文本將由大語言模型編寫。

那么,如何避免 AI 生成內(nèi)容質(zhì)量下降,一代不如一代?英國和加拿大團(tuán)隊提出了兩種方法。

一是保留原始數(shù)據(jù)集的副本,并避免它被 AI 生成的數(shù)據(jù)污染,然后可以基于這些數(shù)據(jù),定期重新訓(xùn)練或者從頭刷新模型。

二是將新的、干凈的、人類生成的數(shù)據(jù)集,重新引入到模型訓(xùn)練中。然而,前提是存在某種可行的方式,區(qū)分 AI 和人類生成的內(nèi)容。

ChatGPT 的數(shù)據(jù)源截至 2021 年 9 月,在那之前的互聯(lián)網(wǎng)可能是最后一片凈土。

從此以后我們踏進(jìn)了暗流涌動的世界,困境擺在眼前,應(yīng)對措施懸在空中。

被用來制造垃圾的 AI,本該提高互聯(lián)網(wǎng)的下限

不過,互聯(lián)網(wǎng)被污染的鍋,不該全由 AI 來擔(dān)。

事實上,AI 本該用來提高互聯(lián)網(wǎng)內(nèi)容的下限,在 ChatGPT 前身 GPT-3 的時代,已經(jīng)有人將它作為寫作工具了。

AI 從新鮮的玩具變成提升生產(chǎn)力的工具是必然的趨勢,因為它學(xué)習(xí)了海量知識,擅長寫出有板有眼的文章和代碼,如果再由人力審核和編輯,其實已經(jīng)比不少「內(nèi)容農(nóng)場」的質(zhì)量要高。

圖片

「內(nèi)容農(nóng)場」指的是那些快速生產(chǎn)內(nèi)容、從而賺取流量和廣告費的網(wǎng)站。

這類網(wǎng)站通常找不到作者,摻雜大量廣告,搶占搜索頁面的前排,內(nèi)容多半缺乏原創(chuàng)且無法保證真實性,很可能是盜取或拼湊他人文章,有來源不明、質(zhì)量低劣、翻譯不準(zhǔn)等問題。

現(xiàn)在,AI 卻被拿來制造新的內(nèi)容農(nóng)場,這是人類出于利益的選擇。除了各種假新聞和假圖片,電子書網(wǎng)站、科幻雜志投稿等,也被 AI 批量生產(chǎn)的垃圾充斥。

圖片

軟件工程師 Chris Cowell 花了一年多的時間,編寫了一本技術(shù)指南。結(jié)果在這本書發(fā)行前,亞馬遜已經(jīng)出現(xiàn)了相同主題的、由 AI 生成的電子書。

他擔(dān)心的不是銷量,而是這種低質(zhì)量、低價格、省時省力的 AI 寫作,會讓同樣打算編寫小眾書籍的人類產(chǎn)生「寒蟬效應(yīng)」,降低寫作熱情,不愿意再發(fā)出聲音。

AI 初創(chuàng)公司 Hugging Face 的首席倫理科學(xué)家 Margaret Mitchell 警告,隨著 AI 生成的內(nèi)容越來越多,我們可能讀到大量不符事實的內(nèi)容,但又無法追溯真相。

這就像是一個 AI 主導(dǎo)的「后真相世界」。

「后真相」指的是,客觀事實在塑造公眾輿論方面的影響力,反而低于訴諸情感和個人信仰的內(nèi)容。它被《牛津詞典》評為 2016 年年度詞匯,至今依然適用。

前段時間,路透社一項針對 9.3 萬多名成年人的調(diào)查發(fā)現(xiàn),用 TikTok 看新聞的年輕人越來越多了。至于內(nèi)容有多可信,那就得打個問號。

最近,TikTok 流傳著泰坦尼克號從未沉沒的說法,有理有據(jù)也就罷了,卻只見張口就來的陰謀論。有人用魔法打敗魔法,制作辟謠視頻,關(guān)注度并不低,但沒有謠言出圈。

一位研究泰坦尼克號 60 年的專家感嘆:「看到這么多垃圾出現(xiàn),讓人有點泄氣。」

更讓他擔(dān)心的是,這類內(nèi)容的受眾里有很多青少年,他們使用 TikTok 的時間越長,就越相信自己所看到的,然后算法推薦更多相關(guān)內(nèi)容,應(yīng)接不暇地激發(fā)快感,將他們徹底包圍。

更多類似的趨勢在上演。

斷章取義、支離破碎的片段式消息流轉(zhuǎn)于社交媒體,但嚴(yán)肅內(nèi)容又可能被評論「太長不看」。

制作粗糙的短視頻,促使新的「黃色新聞」興起。或是家長里短的擺拍,或是沒有營養(yǎng)的奇聞逸事,讓人想罵一句「沒有新聞可以不發(fā)」。

5 分鐘的小帥小美式電影解說,則是適合下飯的「電子榨菜」,空鏡和轉(zhuǎn)場什么的不重要,將人物標(biāo)簽化,選取最獵奇或懸疑的情節(jié)講解就好。

所以,在 ChatGPT 之前,互聯(lián)網(wǎng)已經(jīng)內(nèi)容降級,它不止關(guān)乎具體內(nèi)容,更關(guān)乎用戶的媒介使用習(xí)慣,如果 AI 被用來加速這個過程,然后再被這些數(shù)據(jù)訓(xùn)練,那么人類將更加無法抵擋污染。

嚴(yán)肅和通俗內(nèi)容都有受眾,也都值得生產(chǎn),問題的核心并不在這里。尼爾·波茲曼在電視時代就提出警告,媒介社會面臨的最大問題,不是電視為人們提供娛樂性的內(nèi)容,而是所有的內(nèi)容都以娛樂的形式表現(xiàn)出來。

相比印刷媒介的嚴(yán)肅與有序,電視等大眾媒介瞬間傳遞信息,如果沉溺于技術(shù)營造的視覺快感,受眾可能會漸漸失去獨立思考的能力。

互聯(lián)網(wǎng)時代不外如是。

對視覺化、簡短化、情緒化內(nèi)容的生產(chǎn)和消費傾向,為 AI 污染互聯(lián)網(wǎng)塑造了肥沃土壤,甚至讓人們對虛假信息的抵抗能力降低。

所以,AI 污染互聯(lián)網(wǎng)不全是 AI 的鍋,它可以用來完成更好的事,也可以讓現(xiàn)狀持續(xù)。先是人類選擇想要怎樣的世界,然后 AI 負(fù)責(zé)放大它。


相關(guān)內(nèi)容