【新智元導(dǎo)讀】奇點(diǎn)將至?奧特曼再次釋放「六字」神秘信號(hào)!谷歌文檔之父、機(jī)器學(xué)習(xí)博士紛紛預(yù)測(cè),AGI降臨那天,95%人類工作或被AI取代。
一覺醒來,奇點(diǎn)又進(jìn)了一步?!
昨天,OpenAI智能體安全研究員Stephen McAleer突然發(fā)出一番感慨:
有點(diǎn)懷念從前那段做AI研究的日子,那時(shí)我們還不知道如何創(chuàng)造超級(jí)智能。
緊隨其后,奧特曼發(fā)表了意味深長的「六字箴言」:near the singularity; unclear which side——奇點(diǎn)臨近;不知身處何方。
這句話是想表達(dá)兩層意思:
1. 模擬假說
2. 我們根本無法知道AI真正起飛的關(guān)鍵時(shí)刻,究竟是在什么時(shí)候
他又瘋狂暗示了一番,并期望這一點(diǎn)能引申出大家更多的解讀。
這一前一后,他們接連發(fā)出耐人尋味的信號(hào),讓所有人不禁思考:奇點(diǎn)是否真的近在咫尺?
評(píng)論區(qū)下方,直接被新一輪的AGI大猜想和恐慌沖爆了。
若AGI/ASI真正降臨那天,我們將面臨著什么?
「谷歌文檔」之父Steve Newman在最新長文中認(rèn)為,「屆時(shí),AI將會(huì)取代95%人類工作,甚至包括未來新創(chuàng)造的工作」。
Apollo Research聯(lián)創(chuàng)Marius Hobbhahn則更進(jìn)一步,列出了2024年-2030年所有AGI時(shí)間表。
他預(yù)測(cè),「2027年,AI將直接取代AGI實(shí)驗(yàn)室頂級(jí)AI研究員;
2028年,AI公司將有1萬-100萬個(gè)自動(dòng)化的AI研究員,差不多所有需要知識(shí)型的工作都被AI自動(dòng)化」。
與Newman觀點(diǎn)一致的是,Hobbhahn認(rèn)為2024年95%以上經(jīng)濟(jì)價(jià)值的任務(wù),都能被AI完全自動(dòng)化。
不過,他將這個(gè)時(shí)間節(jié)點(diǎn)設(shè)定在了2029年。
AGI降臨,超95%工作被取代
Steve Newman在文章中,闡述了他對(duì)AGI的定義及其AI對(duì)未來世界的影響。
那么,AGI究竟指代的是什么時(shí)刻?Newman認(rèn)為:
AI能夠在超95%的經(jīng)濟(jì)活動(dòng)中,以成本效益的方式取代人類,包括未來新創(chuàng)造的任何工作。
他認(rèn)為,大多數(shù)假設(shè)的AI變革性影響都集中在這個(gè)節(jié)點(diǎn)上。
因此,這個(gè)「AGI」的定義,代表了世界開始顯著改變的時(shí)刻,也是所有人「感受到AGI」的時(shí)刻,具體而言:
1 AI系統(tǒng)能主動(dòng)適應(yīng)完成大多數(shù)經(jīng)濟(jì)活動(dòng)所需的任務(wù),并能完成完整而非孤立的任務(wù)。
2 一旦AI能夠完成大多數(shù)知識(shí)型工作,高性能的物理機(jī)器人將在幾年內(nèi)隨之而來。
3 這種能力水平可以實(shí)現(xiàn)一系列變革場(chǎng)景,從經(jīng)濟(jì)超增長到AI接管世界等。
4 世界變革場(chǎng)景需要這種水平的AI(通常,專用AI不足以改變世界)。
5 在達(dá)到AGI之前,「遞歸自我改進(jìn)」將成為主要推動(dòng)力。
6 AGI指的是具備必要能力(以及經(jīng)濟(jì)效率)的AI被發(fā)明出來的時(shí)刻,而不是在整個(gè)經(jīng)濟(jì)中全面部署的時(shí)刻。
關(guān)于AI如何對(duì)世界產(chǎn)生變革性影響,有來自多方的推測(cè):
一種觀點(diǎn)認(rèn)為,AI可能帶來難以想象的經(jīng)濟(jì)增長——推動(dòng)科學(xué)和工程領(lǐng)域快速進(jìn)步,完成任務(wù)的成本比人類更低,幫助公司和政府做出更高效的決策。
根據(jù)最近的歷史數(shù)據(jù),世界人均GDP大約每40年翻一番。有人認(rèn)為,高級(jí)AI可以使GDP在一年內(nèi)至少翻一倍,也就是「超增長」。
十年的「超增長」將使人均GDP增加1000倍。也就意味著,目前每天靠2美元生活的家庭,未來可能會(huì)實(shí)現(xiàn)年收入73萬美元。
另一種觀點(diǎn)認(rèn)為,AI可能會(huì)帶來災(zāi)難性的風(fēng)險(xiǎn)。
它可能會(huì)發(fā)動(dòng)毀滅性的網(wǎng)絡(luò)攻擊,制造出高死亡率的流行??;可能讓獨(dú)裁者獲得對(duì)國家甚至全世界的絕對(duì)控制權(quán);甚至,AI可能失去控制,最終摧毀所有人類生命。
還有人推測(cè),AI可能淘汰人類,至少在經(jīng)濟(jì)領(lǐng)域會(huì)這樣。它可能終結(jié)資源稀缺,讓每個(gè)人都能過上富裕的生活(前提是選擇公平分配這些成果)。它可能將僅存在于科幻中的技術(shù)變?yōu)楝F(xiàn)實(shí),比如治愈衰老、太空殖民、星際旅行、納米技術(shù)。
不僅如此,一些人設(shè)想了一個(gè)「奇點(diǎn)」,在奇點(diǎn)中,進(jìn)步的速度如此之快,以至于我們什么都無法預(yù)測(cè)。
Steve Newman推測(cè),AGI真正實(shí)現(xiàn)的時(shí)刻,就是這些設(shè)想幾乎同時(shí)變成現(xiàn)實(shí)的時(shí)刻。
「可能發(fā)生」,不是「肯定發(fā)生」
需要澄清的是,Newman并非在說,關(guān)于高級(jí)AI的預(yù)測(cè),一定都會(huì)實(shí)現(xiàn)。
未來,技術(shù)突破逐漸變難,所謂的「奇點(diǎn)」也就不一定會(huì)出現(xiàn)。也就是說,「長生不老」可能根本就無法實(shí)現(xiàn)。
再說了,人們可能更喜歡與他人互動(dòng),這樣的話,人類也就不會(huì)真的在現(xiàn)實(shí)經(jīng)濟(jì)活動(dòng)中變得沒用。
當(dāng)提到「可能差不多同時(shí)發(fā)生」時(shí),Steve Newman的意思是,AI如果能實(shí)現(xiàn)難以想象的經(jīng)濟(jì)增長,那也有能力制造真正的毀滅性流行病、接管世界或快速殖民太空。
為什么談?wù)摗竿ㄓ萌斯ぶ悄堋?/span>
經(jīng)濟(jì)超增長在理論上是否可能,有一些爭議。
但如果AI無法自動(dòng)化幾乎所有的經(jīng)濟(jì)活動(dòng),那么超增長幾乎注定是不可能的。僅僅自動(dòng)化一半的工作,不會(huì)帶來深遠(yuǎn)的影響;對(duì)另一半工作的需求會(huì)隨之增加,直到人類達(dá)到一個(gè)新的、相對(duì)常規(guī)的平衡。(畢竟,這種情況在過去已發(fā)生過;在不久前,大多數(shù)人還從事農(nóng)業(yè)或簡單的手工業(yè)。)
因此,超增長需要AI能夠完成「幾乎所有事情」。它還需要AI能夠適應(yīng)工作,而不是重新調(diào)整工作和流程來適應(yīng)AI。
否則,AI將以類似于以往技術(shù)的速度滲透到經(jīng)濟(jì)中——這種速度太慢,無法帶來持續(xù)的超增長。超增長需要AI足夠通用,以完成人類能做的幾乎所有事情,并且足夠靈活以適應(yīng)人類原本的工作環(huán)境。
還有太空殖民、超致命流行病、資源稀缺的終結(jié)、AI接管世界等預(yù)測(cè),這些情景都可以被歸類為「AGI 完成」情景:它們與經(jīng)濟(jì)超增長需要的AI,具有相同的廣度和深度。
Newman進(jìn)一步主張,只要AI能夠完成幾乎所有經(jīng)濟(jì)任務(wù),它就足以實(shí)現(xiàn)全部預(yù)測(cè),除非與AI能力無關(guān)的原因?qū)е滤鼈儫o法實(shí)現(xiàn)。
為什么這些截然不同的情景,需要相同水平的AI能力?
閾值效應(yīng)
他提到了,上個(gè)月Dean Ball關(guān)于「閾值效應(yīng)」的文章。
也就是說,技術(shù)的逐步進(jìn)步可能在達(dá)到某個(gè)關(guān)鍵閾值時(shí),引發(fā)突如其來的巨大影響:
Dean Ball最近撰文探討了閾值效應(yīng):新技術(shù)在初期并不會(huì)迅速普及,只有當(dāng)難以預(yù)測(cè)的實(shí)用性閾值被突破后,采用率才會(huì)迅速攀升。例如,手機(jī)起初是一種笨重且昂貴的滯銷產(chǎn)品,而后來卻變得無處不在。
幾十年來, 自動(dòng)駕駛汽車還只是研究人員的興趣,而如今谷歌的Waymo服務(wù)每三個(gè)月就能實(shí)現(xiàn)翻倍增長。
對(duì)于任何特定任務(wù),只有在突破該任務(wù)的實(shí)用性閾值后, AI才會(huì)被廣泛采用。這種突破可能發(fā)生得相當(dāng)突然;從「還不夠好」到「足夠好」的最后一步不一定很大。
他認(rèn)為,對(duì)于所有真正具有變革性影響的AI,其閾值與他之前描述的定義一致:
超增長需要AI能夠完成「幾乎所有事情」。它還需要AI能夠適應(yīng)任務(wù),而不是調(diào)整任務(wù)去適應(yīng)自動(dòng)化。
當(dāng)AI能夠完成幾乎所有經(jīng)濟(jì)價(jià)值任務(wù),并且不需要為了適應(yīng)自動(dòng)化而調(diào)整任務(wù)時(shí),它將具備實(shí)現(xiàn)全部預(yù)測(cè)的能力。在這些條件滿足之前,AI還需要人類專家的協(xié)助。
一些細(xì)節(jié)
不過,Ball略過了AI承擔(dān)體力工作的問題——即機(jī)器人技術(shù)。
大多數(shù)場(chǎng)景都需要高性能的機(jī)器人,但一兩個(gè)(例如高級(jí)網(wǎng)絡(luò)攻擊)可能不需要。然而,這種區(qū)別可能并不重要。
機(jī)器人學(xué)的進(jìn)步——無論是物理能力還是用于控制機(jī)器人的軟件——最近都顯著加快。這并非完全偶然:現(xiàn)代「深度學(xué)習(xí)」技術(shù)既推動(dòng)了當(dāng)前AI浪潮,在機(jī)器人控制方面也非常有效。
這引發(fā)了物理機(jī)器人硬件領(lǐng)域的一波新研究。當(dāng)AI有足夠的能力刺激經(jīng)濟(jì)高速增長時(shí),幾年之內(nèi)它也可能會(huì)克服剩余的障礙來制造可以勝任體力工作的機(jī)器人。
實(shí)際的影響將在至少幾年內(nèi)逐步展開,一些任務(wù)將比其他任務(wù)更早實(shí)現(xiàn)。即使AI能夠完成大多數(shù)經(jīng)濟(jì)價(jià)值任務(wù),也不是所有公司都會(huì)立即行動(dòng)。
為了讓AI完成比人類更多的工作,需要時(shí)間去建設(shè)足夠多的數(shù)據(jù)中心,而大規(guī)模生產(chǎn)物理機(jī)器人可能需要更長時(shí)間。
當(dāng)談到AGI時(shí),指的是具備基本能力的時(shí)刻,而不是全面部署的時(shí)刻。
當(dāng)提到AI能夠「完成幾乎所有經(jīng)濟(jì)價(jià)值任務(wù)」時(shí),并不一定意味著單個(gè)AI系統(tǒng)可以完成所有這些任務(wù)。我們可能最終會(huì)創(chuàng)建從事不同任務(wù)的專用模型,就像人類從事不同的專業(yè)一樣。但創(chuàng)建專用模型的必須像培訓(xùn)專業(yè)工人一樣容易。
實(shí)現(xiàn)AGI,我們?cè)撛趺醋觯?/p>
對(duì)于「如何實(shí)現(xiàn)AGI?」這個(gè)問題,現(xiàn)在的研究者幾乎沒有頭緒和理論依據(jù),各種流派都有,爭論不休。
Apollo Research聯(lián)創(chuàng)Marius Hobbhahn認(rèn)為,AGI的核心特點(diǎn)應(yīng)該有三個(gè):
- 對(duì)風(fēng)險(xiǎn)的來源、預(yù)期的風(fēng)險(xiǎn)程度、安全預(yù)算以及愿意承擔(dān)的風(fēng)險(xiǎn)做出更具體的明確假設(shè)。
- 明確的多層次防御方法,去除某些不相關(guān)、負(fù)相關(guān)的措施,而不是「嘗試疊加不同的策略以降低風(fēng)險(xiǎn)」。
- 計(jì)劃一致性,很多AI公司在宣傳和實(shí)際做的事不一致,比如聲稱為了安全性愿意付出更高代價(jià),但卻不愿意承擔(dān)透明推理帶來的額外成本。
忠實(shí)且人類可讀的CoT范式
從AGI的全局發(fā)展來看,我們很幸運(yùn):現(xiàn)在AI系統(tǒng)的大部分推理過程是「直接可見」且「易于理解的」。
所謂忠實(shí)且人類可讀,就是指模型的推理過程是以一種人類可以直接理解的方式進(jìn)行的,并且準(zhǔn)確地反映了模型行動(dòng)的原因,模型不能進(jìn)行與聲明不符的內(nèi)部推理。
我們至少應(yīng)該:
1. 共同認(rèn)同將此作為一個(gè)重要考慮因素,并以此進(jìn)一步發(fā)展。為了讓模型產(chǎn)生更易理解的CoT,我們可以并愿意承受相應(yīng)的性能損失,哪怕是普通應(yīng)用的運(yùn)行成本會(huì)增加2倍,或是高風(fēng)險(xiǎn)應(yīng)用的成本增加到5倍
2. 將更多的精力投入到研究易于理解且忠實(shí)的推理過程(CoT)。比如構(gòu)建一套評(píng)估工具,以測(cè)試某個(gè)特定模型的推理過程是否忠實(shí),或者探索直接優(yōu)化可讀性會(huì)帶來哪些副作用,如何隱藏掉非預(yù)期推理等。
3. 「從架構(gòu)中移除可見CoT」的相關(guān)研究應(yīng)該減少,例如Meta的COCONUT
假設(shè)可讀性帶來的額外成本并不太高(例如,不到2倍),那現(xiàn)在關(guān)于「移除CoT」的研究無異于自毀長城。
如果存在證據(jù)表明,像在o1和o3中使用的高計(jì)算強(qiáng)化學(xué)習(xí)(high compute RL)會(huì)導(dǎo)致不可讀的推理過程,例如模型自己發(fā)展出人類難以理解的語言,相應(yīng)的觀念也應(yīng)該發(fā)生轉(zhuǎn)變:
1. 人工智能開發(fā)者盡快分享此信息,「模型的推理性能很好,但我們不理解其推理過程」要比「模型的推理性能一般,但我們能夠理解其推理過程」可怕得多。
2. 轉(zhuǎn)變研究和治理策略的優(yōu)先級(jí),比如投入更多精力去解碼模型所學(xué)到的語言。
用CoT監(jiān)控模型
如果模型能生成人類可理解的CoT,我們的主要防御手段就是對(duì)模型進(jìn)行詳細(xì)的監(jiān)控,雖然極具成本效益但經(jīng)常被忽視。
在理想情況下,可以用幾臺(tái)簡單的監(jiān)控設(shè)備來分析模型輸出,以檢測(cè)各種通用的故障模式和不良行為,可追蹤的行為類型包括:
各種類型的陰謀(scheming)行為,例如模型是否隱藏了某個(gè)特定目標(biāo),是否試圖逃避監(jiān)管,是否采取了不符合用戶利益的行動(dòng)等;
各種類型的權(quán)力追求(power-seeking)行為,例如模型是否試圖獲取資源,試圖減少訪問限制,試圖以某種方式說服他人等;
強(qiáng)烈且廣泛的目標(biāo)導(dǎo)向,例如模型在多個(gè)上下文中都一直在追求某個(gè)特定目標(biāo),需要在不同上下文之間進(jìn)行對(duì)比;
可以使用較小但運(yùn)行更快的模型作為「僅黑箱監(jiān)控器」(balck-box-only monitors),類似用Gemini-flash來監(jiān)控Gemini,或者使用「白盒探測(cè)器」(white-box probes),經(jīng)過訓(xùn)練以檢測(cè)有問題的行為(例如,線性探測(cè)器或SAE探測(cè)器);
最好既能監(jiān)控行動(dòng)本身(例如,工具調(diào)用),也能監(jiān)控導(dǎo)致這些行動(dòng)的推理過程。
模型開發(fā)商已經(jīng)開始使用黑箱監(jiān)控器來防止模型越獄(jailbreaks),算是有了一個(gè)概念驗(yàn)證;簡單的線性探測(cè)器極具成本效益(只需要一個(gè)簡單的向量乘積),可以在幾乎不增加額外開銷的情況下,并行運(yùn)行上萬的探測(cè)器。
雖然這些方法看似簡單,但研究人員認(rèn)為,還沒有人系統(tǒng)地研究如何對(duì)模型進(jìn)行有效的監(jiān)控。
監(jiān)控在概念理解上看似簡單,但仍需要大量的迭代和調(diào)整,比如需要一個(gè)完善的數(shù)據(jù)集來訓(xùn)練和評(píng)估探測(cè)器,校準(zhǔn)閾值等。
每個(gè)AI實(shí)驗(yàn)室都應(yīng)該有一個(gè)完整的團(tuán)隊(duì)來專門構(gòu)建監(jiān)控設(shè)備,確保模型按預(yù)期工作,分析其結(jié)果,使其運(yùn)行更高效等。
總的來說,監(jiān)控設(shè)備不僅可以直接防止模型生成傷害性內(nèi)容,還可以更快、更全面地了解對(duì)齊(alignment)技術(shù)的有效性。
控制模型
最壞情況下,模型可能有自己的想法,而且人類不一定能看清推理過程,所以需要最大限度地提高模型的實(shí)用性,同時(shí)最小化風(fēng)險(xiǎn),具體措施包括:
1. 智能體(agents):以往的研究主要集中在小智能體系統(tǒng)或在較小任務(wù),實(shí)驗(yàn)室應(yīng)該盡快將控制技術(shù)應(yīng)用于最先進(jìn)的系統(tǒng),以便盡早積累實(shí)踐經(jīng)驗(yàn);
2. 現(xiàn)實(shí)性(realism):在常見的應(yīng)用場(chǎng)景下對(duì)模型進(jìn)行控制,比如輔助研究等;
3. 藍(lán)隊(duì)與紅隊(duì)的規(guī)則:在某些變體下,紅隊(duì)過于強(qiáng)大,比如可以訪問藍(lán)隊(duì)的所有數(shù)據(jù),并針對(duì)藍(lán)隊(duì)進(jìn)行訓(xùn)練等,對(duì)團(tuán)隊(duì)的假設(shè)應(yīng)該更「合理」且「精確」。
4. 放寬假設(shè)(relaxed asummptions):控制的假設(shè)基于模型始終腹黑,相對(duì)保守;可以定義更嚴(yán)格的界限,減少約束,使模型表現(xiàn)大體不變。
模型的陰謀(scheming)
在加速研發(fā)人工智能系統(tǒng)時(shí),我們也應(yīng)該加深對(duì)大模型圖謀不軌行為的理解:
1. 檢測(cè)工具:使用性能更好的工具來檢測(cè)模型的圖謀,例如更大規(guī)模的黑箱評(píng)估和更好的白箱技術(shù);
2. 圖謀行為的發(fā)展:應(yīng)該深入理解為什么模型會(huì)追求某種能力,了解模型如何學(xué)習(xí)非短視傾向,以及模型何時(shí)愿意為了這些傾向付出行動(dòng);
3. 現(xiàn)實(shí)中的傾向:了解模型在實(shí)踐中的圖謀頻率,比如分析1億個(gè)真實(shí)的模型回復(fù),似乎是一個(gè)低投入、高回報(bào)的項(xiàng)目,但需要訪問大量真實(shí)的部署數(shù)據(jù)。
4. 隱藏的圖謀:分析哪些訓(xùn)練方法會(huì)減少模型的圖謀行為,或識(shí)別出那些難以檢測(cè)的圖謀行為。如果模型每次出現(xiàn)圖謀不軌的時(shí)候,就對(duì)其進(jìn)行懲罰,會(huì)導(dǎo)致負(fù)面行為減少,但可能會(huì)增加模型隱藏陰謀的能力。我們需要針對(duì)不同情況作出判斷和平衡;
5. 準(zhǔn)備應(yīng)對(duì)措施:根據(jù)模型的圖謀程度,采取無視、重新訓(xùn)練模型,或者完全丟棄模型等不同策略;
6. 更多的能力評(píng)估:更進(jìn)一步了解模型在規(guī)避監(jiān)管、干擾訓(xùn)練等程度。
評(píng)估
評(píng)估是一種高效的「模型圖謀」證據(jù)收集工具,可以支持其他策略,比如評(píng)價(jià)「監(jiān)控」或「控制」方法是否有效等。
另一方面,評(píng)估也可以讓我們了解模型的大體能力,但現(xiàn)有的評(píng)估在某些方面仍然不足:
1. 能力評(píng)估:應(yīng)該繼續(xù)構(gòu)建更多更好的能力評(píng)估,特別是針對(duì)人工智能研發(fā)、策劃、核生化、網(wǎng)絡(luò)和說服等方面,我們目前仍然不清楚模型的具體能力;
2. 誘導(dǎo)(Elicitation):如何對(duì)模型進(jìn)行誘導(dǎo)以產(chǎn)生最大能力,盡可能找到模型的上限能力?
3. 預(yù)測(cè)評(píng)估:預(yù)測(cè)能力的正確方式是什么?那些模型表現(xiàn)仍然為0的基準(zhǔn),該如何突破?或許還有更好的預(yù)測(cè)評(píng)估方法;
4. 對(duì)齊評(píng)估:迄今為止,大多數(shù)研究都集中在能力評(píng)估上,而「對(duì)齊/傾向評(píng)估」(alignment/propensity)也很重要,應(yīng)該加速構(gòu)建對(duì)抗性對(duì)齊評(píng)估,比如設(shè)置各種非短視偏好陷阱等,為模型建立一個(gè)非常詳細(xì)的「心理檔案」,以了解其默認(rèn)傾向;
5. 演示:對(duì)于研究人員或公司內(nèi)部來說,需要用一篇嚴(yán)謹(jǐn)?shù)恼撐膩碜屑?xì)考慮所有的潛在可能性,還需要考慮如何傳遞演示給普通用戶。
短期對(duì)齊策略
現(xiàn)有的技術(shù),比如RLHF在模型中引入了非短視(non-myopic)且不可糾正的(non-corrigible)傾向,應(yīng)該投入更多的精力來詳細(xì)了解模型獲得的目標(biāo)類型,為模型建立詳細(xì)的「認(rèn)知檔案」。
內(nèi)部和外部使用的策略應(yīng)該有明顯的區(qū)別,比如模型具有更強(qiáng)的抗越獄能力可能會(huì)降低其可糾正性,需要確定哪些策略適用于長期內(nèi)部部署。
推理透明度
在最好的情況下,內(nèi)部計(jì)劃應(yīng)該是完全透明的,并明確關(guān)于安全預(yù)算、組織隱含愿意承擔(dān)的風(fēng)險(xiǎn)、明確的紅線等假設(shè)。應(yīng)該經(jīng)常與外部專家溝通具體計(jì)劃,專家可以來自獨(dú)立組織、學(xué)術(shù)界或人工智能安全研究所,可以簽訂保密協(xié)議。
從道德上講,公司應(yīng)該與公眾分享計(jì)劃中的細(xì)節(jié),尤其是影響力更大的AI公司和技術(shù),每個(gè)人都應(yīng)該能夠理解他們「應(yīng)該或不應(yīng)該」期望這項(xiàng)技術(shù)是安全的。