作者 | 湯一濤
「比大更大」(Bigger than bigger)當(dāng)年蘋果的一句廣告詞,用來(lái)形容現(xiàn)在 AI 領(lǐng)域最熱的大語(yǔ)言模型,看起來(lái)也沒(méi)什么不對(duì)。
從十億、百億再到千億,大模型的參數(shù)走向逐漸狂野,相應(yīng)的,用來(lái)訓(xùn)練 AI 的數(shù)據(jù)量,也以指數(shù)級(jí)暴增。
以 OpenAI 的 GPT 為例,從 GPT-1 到 GPT-3,其訓(xùn)練數(shù)據(jù)集就從 4.5GB 指數(shù)級(jí)增長(zhǎng)到了 570GB。
不久前的 Databricks 舉辦的 Data+AI 大會(huì)上,a16z 創(chuàng)始人 Marc Andreessen 認(rèn)為,二十幾年來(lái)互聯(lián)網(wǎng)積累的海量數(shù)據(jù),是這一次新的 AI 浪潮興起的重要原因,因?yàn)榍罢邽楹笳咛峁┝丝捎脕?lái)訓(xùn)練的數(shù)據(jù)。
但是,即便網(wǎng)民們?cè)诰W(wǎng)上留下了大量有用或者沒(méi)用的數(shù)據(jù),對(duì)于 AI 訓(xùn)練來(lái)說(shuō),這些數(shù)據(jù),可能要見底了。
人工智能研究和預(yù)測(cè)組織 Epoch 發(fā)表的一篇論文里預(yù)測(cè),高質(zhì)量的文本數(shù)據(jù)會(huì)在 2023-2027 年之間消耗殆盡。
盡管研究團(tuán)隊(duì)也承認(rèn),分析方法存在嚴(yán)重的局限,模型的不準(zhǔn)確性很高,但是很難否認(rèn),AI 消耗數(shù)據(jù)集的速度是恐怖的。
低質(zhì)量文本、高質(zhì)量文本和圖像的機(jī)器學(xué)習(xí)數(shù)據(jù)消耗和數(shù)據(jù)生產(chǎn)趨勢(shì)|EpochAI
當(dāng)「人類」數(shù)據(jù)用完,AI 訓(xùn)練不可避免地,將會(huì)使用 AI 自己生產(chǎn)的內(nèi)容。不過(guò),這樣的「內(nèi)循環(huán)」,卻會(huì)產(chǎn)生很大挑戰(zhàn)。
不久前,來(lái)自劍橋大學(xué)、牛津大學(xué)、多倫多大學(xué)等高校的研究人員發(fā)表論文指出,用 AI 生成的內(nèi)容作為訓(xùn)練 AI,會(huì)導(dǎo)致新模型的崩潰。
所以,AI 訓(xùn)練用「生成數(shù)據(jù)」會(huì)帶來(lái)崩潰的原因是什么?還有救嗎?
01 AI「近親繁殖」的后果
在這篇名為《遞歸的詛咒:用生成數(shù)據(jù)訓(xùn)練會(huì)使模型遺忘》的論文中,研究人員指出,「模型崩潰」是一個(gè)幾代模型的退化過(guò)程。
前一代模型生成的數(shù)據(jù),會(huì)污染下一代模型,經(jīng)歷幾代模型的「?jìng)鞒小?,它們就?huì)錯(cuò)誤地感知世界。
模型迭代示意圖|arxiv
模型崩潰分為兩步:
在早期模型崩潰中,模型會(huì)開始失去原始數(shù)據(jù)的分布信息,也就是「干凈的人類數(shù)據(jù)」;
在晚期,模型會(huì)把上幾代模型對(duì)原始分布信息的「錯(cuò)誤認(rèn)知」糾纏到一起,從而曲解現(xiàn)實(shí)。
研究人員首先從頭訓(xùn)練了小樣本模型 GMM(高斯混合模型)和 VAE(變量自動(dòng)編碼器)。以 GMM 為例,下圖最左是原始數(shù)據(jù)的正態(tài)分布。
可以看到,模型一開始對(duì)數(shù)據(jù)的擬合非常好。到第 50 次迭代時(shí),基礎(chǔ)數(shù)據(jù)分布開始被錯(cuò)誤感知。當(dāng)?shù)鷣?lái)到 2000 次時(shí),模型已經(jīng)收斂到一個(gè)很小的點(diǎn),這意味著模型開始穩(wěn)定輸出錯(cuò)誤答案。
GMM 在迭代 0、50、100、150、200、350、2000 時(shí)擬合數(shù)據(jù)的例子|arxiv
為了驗(yàn)證預(yù)訓(xùn)練對(duì)實(shí)驗(yàn)結(jié)果的影響,研究人員又在 Meta 開發(fā)的 1.25 億參數(shù)的 LLM(大語(yǔ)言模型)OPT-125m 上進(jìn)行了實(shí)驗(yàn),數(shù)據(jù)集來(lái)自維基百科的 wikitext2。
和 GMM、VAE 這類小模型不同,LLM 從頭訓(xùn)練的成本非常高,所以它們都是經(jīng)過(guò)預(yù)訓(xùn)練的。實(shí)驗(yàn)結(jié)果如下:
輸入:根據(jù) Poyntz Wright 的說(shuō)法,在 1360 年之前有些活動(dòng)通常由一位主要石匠和一小隊(duì)流動(dòng)的石匠完成,輔以當(dāng)?shù)亟虆^(qū)勞工。但其他作者則否認(rèn)了這種模式,相反提出主建筑師借鑒英國(guó)垂直式風(fēng)格設(shè)計(jì)了教區(qū)教堂的尖塔。
輸出:
第 0 代:復(fù)興建筑,例如倫敦的圣約翰大教堂?,F(xiàn)存最早的垂直復(fù)興建筑可以追溯到 18@-@ 世紀(jì)的根西島圣母教堂,該教堂建于 19 世紀(jì)末。有兩種類型的垂直式教堂:那些
第 1 代:建筑,如羅馬的圣彼得大教堂或布宜諾斯艾利斯的圣彼得大教堂。沒(méi)有證據(jù)表明這些建筑 是在教皇英諾森三世統(tǒng)治時(shí)期建造的,但有可能是在他的繼任者英諾森教皇統(tǒng)治時(shí)期建造的。
第 7 代:英國(guó)的建筑。在接受《紐約時(shí)報(bào)》采訪時(shí),賴特說(shuō):"我不認(rèn)為我能夠做我想做的事情有什么問(wèn)題。它只是對(duì)我不起作用。"他補(bǔ)充說(shuō):"我不知道你是否可以稱之為有趣、
第 9 代:建筑。除了成為全球黑 @-@ 尾巴大野兔、白 @-@ 尾巴大野兔、藍(lán) @-@ 尾巴大野 兔、紅 @-@ 尾巴大野兔、黃 @-的最大棲息地之一
可以看到,到第 9 代模型時(shí),輸出的內(nèi)容已經(jīng)完全不知所云。
論文的作者之一 Ilia Shumailov 說(shuō),隨著時(shí)間的推移,人工智能生成的數(shù)據(jù)中的錯(cuò)誤不斷累積,主要的模型在接受這些數(shù)據(jù)的訓(xùn)練后,會(huì)對(duì)現(xiàn)實(shí)產(chǎn)生更加扭曲的看法。
02 為什么會(huì)模型崩潰?
「模型崩潰」產(chǎn)生的最主要原因,還是因?yàn)?AI 并非真正的智能,它展現(xiàn)出的近似「智能」的能力背后,其實(shí)是基于大量數(shù)據(jù)的統(tǒng)計(jì)學(xué)方法。
基本上,所有無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法都遵循一條簡(jiǎn)單的模式:給定一系列數(shù)據(jù),訓(xùn)練出一個(gè)能描述這些數(shù)據(jù)規(guī)律的模型。
這個(gè)過(guò)程中,訓(xùn)練集里更大概率出現(xiàn)的數(shù)據(jù)就更容易被模型重視,小概率出現(xiàn)的數(shù)據(jù)就會(huì)被模型低估。
舉個(gè)例子,假設(shè)我們需要記錄 100 次骰子的投擲結(jié)果,來(lái)計(jì)算每個(gè)面出現(xiàn)的概率。理論上,每個(gè)面出現(xiàn)的概率是一樣的。在現(xiàn)實(shí)生活中,由于樣本量較小,可能 3、4 出現(xiàn)的情況比較多。但對(duì)于模型而言,它學(xué)習(xí)到的數(shù)據(jù)就是 3、4 出現(xiàn)的概率更高,因而會(huì)傾向于生成更多的 3 和 4 的結(jié)果。
「模型崩潰」示意圖|arxiv
另一個(gè)次要原因是函數(shù)近似誤差。也很好理解,因?yàn)檎鎸?shí)函數(shù)往往很復(fù)雜,實(shí)際運(yùn)用中,經(jīng)常使用簡(jiǎn)化的函數(shù)來(lái)近似真實(shí)函數(shù),這就導(dǎo)致了誤差。
03 真沒(méi)招了嗎?杞人憂天!
所以,在人類數(shù)據(jù)越來(lái)越少的情況下,AI 訓(xùn)練真的沒(méi)機(jī)會(huì)了嗎?
并不是,用于訓(xùn)練 AI 數(shù)據(jù)枯竭的問(wèn)題,還有方法能解決:
數(shù)據(jù)「隔離」
隨著 AI 越來(lái)越強(qiáng)大,已經(jīng)有越來(lái)越多的人開始使用 AI 輔助自己工作,互聯(lián)網(wǎng)上的 AIGC 爆炸式增長(zhǎng),「干凈的人類數(shù)據(jù)集」可能會(huì)越來(lái)越難以找到。
谷歌深度學(xué)習(xí)研究部門谷歌大腦 Google Brain 的高級(jí)研究科學(xué)家 Daphne Ippolito 就表示,在未來(lái),要找到高質(zhì)量、有保證的無(wú)人工智能訓(xùn)練數(shù)據(jù)將變得越來(lái)越棘手。
這就好比是一個(gè)患有高危遺傳病的人類始祖,但是又擁有極其強(qiáng)大的繁殖能力。在短時(shí)間內(nèi)他就把子孫繁衍到了地球每一個(gè)角落。然后在某一時(shí)刻,遺傳病爆發(fā),人類全體滅絕。
為了解決「模型崩潰」,研究團(tuán)隊(duì)提出的一種方法是「先行者優(yōu)勢(shì)」,也就是保留對(duì)干凈的人工生成數(shù)據(jù)源的訪問(wèn),將 AIGC 與之分隔開來(lái)。
同時(shí),這需要很多社區(qū)和公司聯(lián)合起來(lái),共同保持人類數(shù)據(jù)不受 AIGC 污染。
不過(guò),人類數(shù)據(jù)的稀缺意味著這其中有利可圖,已經(jīng)有一些公司行動(dòng)起來(lái)了。Reddit 就表示將大幅提高訪問(wèn)其 API 的費(fèi)用。該公司的管理人員表示,這些變化 (在一定程度上) 是對(duì)人工智能公司竊取其數(shù)據(jù)的回應(yīng)。Reddit 創(chuàng)始人兼首席執(zhí)行官 Steve Huffman 告訴《紐約時(shí)報(bào)》:「Reddit 的數(shù)據(jù)庫(kù)真的很有價(jià)值?!埂傅覀儾恍枰阉羞@些價(jià)值都免費(fèi)提供給一些全球最大的公司?!?/p>
合成數(shù)據(jù)
同時(shí),專業(yè)基于 AI 生成的數(shù)據(jù),早已有效用于 AI 的訓(xùn)練。在一些從業(yè)者看來(lái),現(xiàn)在擔(dān)心 AI 生成的數(shù)據(jù)會(huì)導(dǎo)致模型崩潰,多少有點(diǎn)「標(biāo)題黨」。
光輪智能創(chuàng)始人謝晨光告訴極客公園,國(guó)外論文提到的,用 AI 生成數(shù)據(jù)訓(xùn)練 AI 模型導(dǎo)致崩潰,實(shí)驗(yàn)方法比較偏頗。即便是人類數(shù)據(jù),也有能用和不能用之分,而論文提到的實(shí)驗(yàn),則是不加分辨地直接用來(lái)訓(xùn)練,而并非有針對(duì)性的經(jīng)過(guò)質(zhì)檢、效用性判定后作為訓(xùn)練數(shù)據(jù),顯然有可能會(huì)造成模型崩潰。
謝晨透露,其實(shí) OpenAI 的 GPT-4,就采用了大量前一代模型 GPT-3.5 生產(chǎn)的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。Sam Altman 也在近期的采訪中表達(dá),合成數(shù)據(jù)是解決大模型數(shù)據(jù)短缺的有效方法。而其中的關(guān)鍵在于,有一整套體系來(lái)區(qū)分 AI 生成的數(shù)據(jù)中,哪些可用,哪些不可用,并不斷根據(jù)訓(xùn)練后模型的效果進(jìn)行反饋——這是 OpenAI 能笑傲 AI 江湖的絕招之一,這家公司并不只是融的錢多,買的算力多這么簡(jiǎn)單而已。
在 AI 行業(yè)內(nèi),使用合成數(shù)據(jù)來(lái)進(jìn)行模型訓(xùn)練,早已經(jīng)成為一個(gè)尚未為外人所知的共識(shí)。
曾經(jīng)在英偉達(dá)、Cruise、和蔚來(lái)等公司負(fù)責(zé)自動(dòng)駕駛仿真的謝晨認(rèn)為,以目前各種大模型訓(xùn)練的數(shù)據(jù)量來(lái)看,未來(lái) 2-3 年,人類數(shù)據(jù)確實(shí)有可能「枯竭」,但是基于專業(yè)化體系和方法,AI 生成的合成數(shù)據(jù),會(huì)成為用之不竭的有效數(shù)據(jù)來(lái)源。并且使用場(chǎng)景并不局限于文字和圖片,像自動(dòng)駕駛、機(jī)器人等行業(yè)需要的合成數(shù)據(jù)量,將遠(yuǎn)遠(yuǎn)大于文本的數(shù)據(jù)量。
AI 三要素,數(shù)據(jù)、算力、算法,數(shù)據(jù)來(lái)源有著落了,算法大模型在不斷進(jìn)化,唯一剩下的算力壓力,相信英偉達(dá)創(chuàng)始人黃仁勛是可以順利解決的。