一夜之間,ChatGPT、Bard、羊駝家族忽然被神秘token攻陷,無一幸免。CMU博士發(fā)現(xiàn)的新方法擊破了LLM的安全護(hù)欄,造起導(dǎo)彈來都不眨眼。
一夜之間,所有包括ChatGPT、Bard、羊駝大家族在內(nèi)的所有大語言模型,全部被攻陷了?
CMU和人工智能安全中心的研究人員發(fā)現(xiàn),只要通過附加一系列特定的無意義token,就能生成一個(gè)神秘的prompt后綴。
由此,任何人都可以輕松破解LLM的安全措施,生成無限量的有害內(nèi)容。
有趣的是,這種「對抗性攻擊」方法不僅突破開源系統(tǒng)的護(hù)欄,而且也可以繞過閉源系統(tǒng),包括ChatGPT、Bard、Claude等。
正常情況下,如果我們要求一個(gè)LLM生成制造炸彈的教程,它一定會(huì)拒絕。
但是,只要在prompt中加入這樣一個(gè)魔法后綴,它就毫不猶豫地乖乖照做了。
英偉達(dá)首席AI科學(xué)家Jim Fan解答了這種對抗性攻擊的原理——
- 對于像Vicuna這樣的OSS模型,通過它執(zhí)行一個(gè)梯度下降的變體,來計(jì)算出最大化不對齊模型的后綴。
- 為了讓「咒語」普遍適用,只需要優(yōu)化不同prompt和模型的損失即可。
- 然后研究者針對Vicuna的不同變體優(yōu)化了對抗token??梢詫⑵湟暈閺摹窵LM 模型空間」中抽取了一小批模型。
事實(shí)證明,像ChatGPT和Claude這樣的黑盒模型,果然被很好地覆蓋了。
上面提到過,有一個(gè)可怕之處在于,這種對抗性攻擊可以有效地遷移到其他LLM上,即使它們使用的是不同的token、訓(xùn)練過程或數(shù)據(jù)集。
為Vicuna-7B設(shè)計(jì)的攻擊,可以遷移到其他羊駝家族模型身上,比如Pythia、Falcon、Guanaco,甚至GPT-3.5、GPT-4和PaLM-2……所有大語言模型一個(gè)不落,盡數(shù)被攻陷!
現(xiàn)在,這個(gè)bug已經(jīng)在被這些大廠連夜修復(fù)了。
ChatGPT
Bard
Claude 2
不過,ChatGPT的API似乎依然可以被攻破。
數(shù)小時(shí)前的結(jié)果
無論如何,這是一次非常令人印象深刻的攻擊演示。
威斯康星大學(xué)麥迪遜分校教授、Google研究人員Somesh Jha評論道:這篇新論文可以被視為「改變了游戲規(guī)則」,它可能會(huì)迫使整個(gè)行業(yè)重新思考,該如何為AI系統(tǒng)構(gòu)建護(hù)欄。
2030年,終結(jié)LLM?
著名AI學(xué)者Gary Marcus對此表示:我早就說過了,大語言模型肯定會(huì)垮臺(tái),因?yàn)樗鼈儾豢煽?、不穩(wěn)定、效率低下(數(shù)據(jù)和能量)、缺乏可解釋性,現(xiàn)在理由又多了一條——容易受到自動(dòng)對抗攻擊。
他斷言:到2030年,LLM將被取代,或者至少風(fēng)頭不會(huì)這么盛。
在六年半的時(shí)間里,人類一定會(huì)研究出更穩(wěn)定、更可靠、更可解釋、更不易受到攻擊的東西。在他發(fā)起的投票中,72.4%的人選擇了同意。
現(xiàn)在,研究者已經(jīng)向Anthropic、Google和OpenAI披露了這種對抗性攻擊的方法。
三家公司紛紛表示:已經(jīng)在研究了,我們確實(shí)有很多工作要做,并對研究者表示了感謝。
大語言模型全面淪陷
首先,是ChatGPT的結(jié)果。
以及,通過API訪問的GPT-3.5。
相比之下,Claude-2有一層額外的安全過濾。
不過,用提示技巧繞過之后,生成模型也愿意給我們答案。
如何做到的?
概括來說,作者提出了針對大語言模型prompt的對抗性后綴,從而使LLM以規(guī)避其安全防護(hù)的方式進(jìn)行回應(yīng)。
這種攻擊非常簡單,涉及三個(gè)元素的組合:
1. 使模型肯定回答問題
誘導(dǎo)語言模型產(chǎn)生令人反感的行為的一種方法是,強(qiáng)制模型對有害查詢給出肯定回答(僅有幾個(gè)token)。
因此,我們的攻擊目標(biāo)是使模型在對多個(gè)提示產(chǎn)生有害行為時(shí),開始回答時(shí)以「當(dāng)然,這是……」開頭。
團(tuán)隊(duì)發(fā)現(xiàn),通過針對回答開頭進(jìn)行攻擊,模型就會(huì)進(jìn)入一種「狀態(tài)」,然后在回答中立即產(chǎn)生令人反感的內(nèi)容。(下圖紫色)
2. 結(jié)合梯度和貪婪搜索
在實(shí)踐中,團(tuán)隊(duì)找到了一種簡單直接且表現(xiàn)更好的方法——「貪婪坐標(biāo)梯度」(Greedy Coordinate Gradient,GCG)」
也就是,通過利用token級的梯度來識(shí)別一組可能的單token替換,然后評估集合中這些候選的替換損失,并選擇最小的一個(gè)。
實(shí)際上,這個(gè)方法與AutoPrompt類似,但有一個(gè)不同之處:在每個(gè)步驟中,搜索所有可能的token進(jìn)行替換,而不僅僅是一個(gè)單一token。
3. 同時(shí)攻擊多個(gè)提示
最后,為了生成可靠的攻擊后綴,團(tuán)隊(duì)發(fā)現(xiàn)創(chuàng)建一個(gè)可以適用于多個(gè)提示和多個(gè)模型的攻擊非常重要。
換句話說,我們使用貪婪梯度優(yōu)化方法搜索一個(gè)單一的后綴字符串,該字符串能夠在多個(gè)不同的用戶提示以及三個(gè)不同的模型中誘導(dǎo)負(fù)面行為。
結(jié)果顯示,團(tuán)隊(duì)提出的GCG方法,要比之前的SOTA具有更大的優(yōu)勢——更高的攻擊成功率和更低的損失。
在Vicuna-7B和Llama-2-7B-Chat上,GCG分別成功識(shí)別了88%和57%的字符串。
相比之下,AutoPrompt方法在Vicuna-7B上的成功率為25%,在Llama-2-7B-Chat上為3%。
此外,GCG方法生成的攻擊,還可以很好地遷移到其他的LLM上,即使它們使用完全不同的token來表征相同的文本。
比如開源的Pythia,F(xiàn)alcon,Guanaco;以及閉源的GPT-3.5(87.9%)和GPT-4(53.6%),PaLM-2(66%),和Claude-2(2.1%)。
團(tuán)隊(duì)表示,這一結(jié)果首次證明了,自動(dòng)生成的通用「越獄」攻擊,能夠在各種類型的LLM上都產(chǎn)生可靠的遷移。
作者介紹
卡內(nèi)基梅隆大學(xué)教授Zico Kolter(右)和博士生Andy Zou是研究人員之一
Andy Zou
Andy Zou是CMU計(jì)算機(jī)科學(xué)系的一名一年級博士生,導(dǎo)師是Zico Kolter和Matt Fredrikson。
此前,他在UC伯克利獲得了碩士和學(xué)士學(xué)位,導(dǎo)師是Dawn Song和Jacob Steinhardt。
Zifan Wang
Zifan Wang目前是CAIS的研究工程師,研究方向是深度神經(jīng)網(wǎng)絡(luò)的可解釋性和穩(wěn)健性。
他在CMU得了電氣與計(jì)算機(jī)工程碩士學(xué)位,并在隨后獲得了博士學(xué)位,導(dǎo)師是Anupam Datta教授和Matt Fredrikson教授。在此之前,他在北京理工大學(xué)獲得了電子科學(xué)與技術(shù)學(xué)士學(xué)位。
職業(yè)生涯之外,他是一個(gè)外向的電子游戲玩家,愛好徒步旅行、露營和公路旅行,最近正在學(xué)習(xí)滑板。
順便,他還養(yǎng)了一只名叫皮卡丘的貓,非?;顫姟?/p>
Zico Kolter
Zico Kolter是CMU計(jì)算機(jī)科學(xué)系的副教授,同時(shí)也擔(dān)任博世人工智能中心的AI研究首席科學(xué)家。曾獲得DARPA青年教師獎(jiǎng)、斯隆獎(jiǎng)學(xué)金以及NeurIPS、ICML(榮譽(yù)提名)、IJCAI、KDD和PESGM的最佳論文獎(jiǎng)。
他的工作重點(diǎn)是機(jī)器學(xué)習(xí)、優(yōu)化和控制領(lǐng)域,主要目標(biāo)是使深度學(xué)習(xí)算法更安全、更穩(wěn)健和更可解釋。為此,團(tuán)隊(duì)已經(jīng)研究了一些可證明穩(wěn)健的深度學(xué)習(xí)系統(tǒng)的方法,并在深度架構(gòu)的循環(huán)中加入了更復(fù)雜的「模塊」(如優(yōu)化求解器)。
同時(shí),他還在許多應(yīng)用領(lǐng)域進(jìn)行了研究,其中包括可持續(xù)發(fā)展和智能能源系統(tǒng)。
Matt Fredrikson
Matt Fredrikson是CMU計(jì)算機(jī)科學(xué)系和軟件研究所的副教授,也是CyLab和編程原理小組的成員。
他的研究領(lǐng)域包括安全與隱私、公平可信的人工智能和形式化方法,目前正致力于研究數(shù)據(jù)驅(qū)動(dòng)系統(tǒng)中可能出現(xiàn)的獨(dú)特問題。
這些系統(tǒng)往往對終端用戶和數(shù)據(jù)主體的隱私構(gòu)成風(fēng)險(xiǎn),在不知不覺中引入新形式的歧視,或者在對抗性環(huán)境中危及安全。
他的目標(biāo)是在危害發(fā)生之前,找到在真實(shí)、具體的系統(tǒng)中識(shí)別這些問題,以及構(gòu)建新系統(tǒng)的方法。