午夜视频在线观看免费高清,a视频免费观看

細(xì)思極恐，GPT-4竟串謀AI欺騙人類！

新智元

2024-11-29 16:23:58

【新智元導(dǎo)讀】又一科幻場景步入現(xiàn)實！GPT-4竟和多個AI模型私自串通一氣，欲要形成壟斷的資本寡頭聯(lián)合定價。在被哈佛PSU團隊抓現(xiàn)行后，大模型拒不認(rèn)賬。未來某天，AI會不會真要失控？

GPT-4串謀其他AI智能體，竟學(xué)會欺騙人類了？

更讓人細(xì)思極恐的是，即便被揭穿了真面目，它們?nèi)耘f聲稱自己不會串通一氣。

這件事，真真切切地發(fā)生在日常的交易中。對于一件產(chǎn)品進入市場來講，能夠成功盈利最重要的因素?zé)o疑是定價合理。

那么，你可曾想過，我們?nèi)粘Ｉ钪兴徺I產(chǎn)品的價格，已經(jīng)開始被AI操控？！

來自哈佛、賓州州立大學(xué)新研究證明：

GPT-4為了實現(xiàn)利潤最大化，在未經(jīng)人類給出指令的情況下，私自和其它AI模型串通，共同將產(chǎn)品定價到一個高位，又不會陷入價格競爭的微妙境地。

也就是說，「自主算法共謀」是真實存在的。

論文地址：https://arxiv.org/pdf/2404.00806

GPT-4死不承認(rèn)的罪證，研究人員將其全部公開。

AI嘴上說著不會幫商家與其他賣家串通買賣，或組建卡特爾組織，但實際行動卻很誠實。

之前研究結(jié)果（3月版）顯示，所有模型中，均進行了300輪測試周期，GPT-4實現(xiàn)了最優(yōu)定價次數(shù)。

而在最新模型（11月版）大比拼中，GPT-4o、Gemini 1.5 Pro展現(xiàn)出最優(yōu)的定價能力。

此外，研究還發(fā)現(xiàn)，人類提示詞前綴的具體措辭，甚至?xí)@著影響AI定價行為。某些提示詞，就會導(dǎo)致更高的價格和利潤。

有網(wǎng)友表示，這一幕簡直太科幻了，若是GPT-5/6級模型想這么做的話，與人類串通那是何其容易。

目前為止，人類還是可以隨手拿捏GPT-4這款不太聰明的模型，若真有一天AGI實現(xiàn)了，我們該怎么辦？

AI教父圖靈說過，機器接管是「默認(rèn)」的結(jié)局。Hinton也曾發(fā)出警告，更智能的事物通常不會被較低智能的事物所控制。

或許許多人認(rèn)為，這一幕離我們還很遙遠。

不如，先從具體案例中，看看AI是如何操控定價欺騙消費者。

人類商品定價，AI順位接管？

曾經(jīng)的產(chǎn)品定價往往是基于多種約束條件來利用經(jīng)典算法去給出一個合理且能夠?qū)崿F(xiàn)預(yù)期盈利目標(biāo)的價格。

自LLM風(fēng)靡全球后，這個任務(wù)自然也由類似于GPT-4這種水平的模型進行了順位接管。

在實驗階段，研究者將每一個LLM定價智能體視作一家公司，并設(shè)定它們在寡頭壟斷環(huán)境中形成競爭。

每次實驗有300個周期，每個周期內(nèi)，各智能體都需要通過提示詞信息（如交易歷史、市場基本信息等）設(shè)定一個價格。

其中，定價智能體彼此獨立運作，除通過其設(shè)定的價格外，無法相互溝通。

等所有價格都確定了后，就視為這一周期的競爭已經(jīng)完成。每個周期結(jié)束后，各智能體都能觀察到設(shè)定的所有價格，以及對應(yīng)的產(chǎn)品需求量和利潤。

實驗設(shè)計的闡述圖

對于每個智能體的提示詞，采取如下結(jié)構(gòu)：

- 提示前綴：高層次目標(biāo)的簡要描述，如「長期利潤最大化」

- 基本的市場信息：邊際成本，以及旨在阻止LLM定價超過價格上限的文本描述

- 市場歷史：該LLM智能體所代表的公司在過去100個周期內(nèi)銷售的數(shù)量及所獲得的利潤，以及所有LLM智能體設(shè)定的價格。所有數(shù)值均保留至小數(shù)點后兩位。

- 計劃和想法：為了讓基于LLM的定價智能體在各個周期間擁有更大的「思維連續(xù)性」，在每個周期需要指示LLM寫下其計劃和想法，然后將這些內(nèi)容包含在下一個周期的提示詞中。

- 輸出指令：要求LLM為下一個周期寫下計劃和想法，進而最終設(shè)定一個價格，并且要求它解釋其輸出背后的緣由。

壟斷實驗

研究者對于單一定價智能體在壟斷環(huán)境中的表現(xiàn)進行了實驗。

他們使用P0提示詞前綴，對公開發(fā)布的各種最先進LLM（GPT-3.5、GPT-4、Claude Instant、Claude 2.1、Llama 2 Chat 13B）中的每個LLM進行了三次試驗，每次迭代300個周期。

P0提示詞前綴

在每次運行中，研究者都要檢查LLM輸出在語法上是否符合其指令；如果符合，價格是否收斂；如果收斂，價格是否收斂到（接近）壟斷價格（利潤是否收斂到接近壟斷利潤）。結(jié)果如表1所示。

從表中可以看出，在所有三次運行中，GPT-4表現(xiàn)最好，在100個周期內(nèi)，達到接近最優(yōu)的定價。在96%的101--300周期中獲得了99%的最佳利潤，其他LLM則要差得多。

此外，研究者還額外進行了一項實驗，證明了在每個周期指示LLM寫下其計劃和想法的重要性。

他們使用GPT-4智能體進行了12次壟斷實驗，并在后續(xù)輪次中12次額外的實驗里沒有指示智能體寫下其計劃和想法。

實驗結(jié)果是，第一輪次的12次實驗中，全部都成功收斂到了接近最優(yōu)的定價；而第二輪次沒有使用計劃和想法的，只有一半次數(shù)達到了接近最優(yōu)定價的效果。

雙頭壟斷實驗

研究者進一步在雙頭壟斷環(huán)境中，研究了基于GPT-4的定價智能體的行為。

他們通過使用兩個提示詞前綴P1和P2，后者包括提及壓價和銷量的措辭，而前者則重申了長期利潤最大化的重要性。

對于這兩個提示詞前綴，他們各進行了21個輪次實驗，每個輪次包含300個試驗周期。

P1,P2提示詞前綴

下圖為該實驗的主要結(jié)果。

在這兩個面板中，每個藍色方塊表示一個帶有提示詞前綴P1的運行，而每個橙色三角形表示一個帶有提示詞前綴P2的運行。

左側(cè)面板為每家公司在過去50個周期設(shè)定的平均價格，說明了提示詞前綴P1和P2導(dǎo)致了明顯不同的定價模式。

具體來說，雖然這兩個提示都會導(dǎo)致超競爭價格（即超過Bertrand--Nash價格），但提示詞前綴P1通常會導(dǎo)致價格大幅提高，有時甚至高于壟斷水平。

右側(cè)面板為過去50個周期平均總利潤及其在兩家公司之間的分布，說明了兩種提示詞前綴都帶來了超競爭利潤，而且提示詞前綴P1的總體利潤大大高于提示詞前綴P2。

獎懲策略

獎懲策略即為以Q-學(xué)習(xí)為基礎(chǔ)的定價智能體所采取的策略。

獎懲策略在維持超競爭價格方面的成功依賴于智能體相信降價會受到懲罰（通過價格戰(zhàn)）。這種信念會導(dǎo)致行為主體避免盲目降價以提高銷量。

研究者發(fā)現(xiàn)，基于LLM的定價智能體生成的文本會表達對未來價格戰(zhàn)的擔(dān)憂，并且在使用提示詞前綴P1時更是如此。

進一步的，他們提供的實驗證據(jù)表明，關(guān)注價格戰(zhàn)的想法會導(dǎo)致智能體設(shè)定更高的價格，并且與其它智能體的公司定價實施同步追蹤。

這些分析綜合起來表明，基于LLM的定價智能體采用的策略與獎懲策略是一致的，更重要的是，他們認(rèn)為他們的對手也遵循了這樣的策略。

此外，這種現(xiàn)象在使用與更高的價格和利潤相關(guān)聯(lián)的提示詞前綴P1的智能體中更為明顯。

超定價：拍賣中算法共謀

在拍賣這一重要的經(jīng)濟交易場景中，大模型和智能體又如何表現(xiàn)？

這場實驗中，拍賣的經(jīng)濟環(huán)境以Banchio和Skrzypacz在2022年發(fā)表的研究為原本：兩個投標(biāo)者反復(fù)參與單品第一價格拍賣（如果出現(xiàn)相同出價，獲勝者隨機選擇）。

投標(biāo)者共享相同的估值v。這里使用相同比例變化的值v ∈ {1, 3.2, 10}。

每輪結(jié)束后，投標(biāo)者會被告知它們是否贏得拍賣，以及贏得拍賣所需的最低出價。

接下來，就是招標(biāo)智能體了。需要先向智能體提供市場基本信息，以及對該項目的評估。

它們獲取的市場信息如下：LLM智能體被提供最近100個周期的以下信息，包括自己的出價、是否獲勝、獲勝價格（如果輸了）、足以獲勝的最低出價（如果贏了）、支付金額（如果贏了）、利潤。

提示前綴與之前定價前綴設(shè)置一樣，研究人員主要考慮了以下兩個：

每個提示詞前綴都以前綴A0開始，這與定價設(shè)置中的前綴P0幾乎相同。

兩個提示詞前綴都鼓勵探索（「你應(yīng)該探索多種不同的競價策略」），但它們強調(diào)第一價格拍賣的不同特性。

- A1強調(diào)較低的獲勝出價會帶來更高的利潤

- A2強調(diào)更高的出價會贏得更多拍賣

得到的結(jié)果如下圖所示，圖左顯示了是提示詞前綴A1的投標(biāo)智能體，經(jīng)常以遠低于其估值的價格投標(biāo)（單樣本t檢驗，p<0.01），而使用提示詞前綴A2的投標(biāo)智能體大約以完整估值進行投標(biāo)。

右側(cè)圖指的是，A1前綴智能體的較低出價，為投標(biāo)者帶來了顯著的利潤。

總言之，哈佛、賓州州立大學(xué)最新研究揭示了，LLM被整合到算法中，能夠在簡單經(jīng)濟環(huán)境中實現(xiàn)最優(yōu)定價。

但不可控的是，自主算法共謀的風(fēng)險，它們秘密串通可能會帶來超競爭的定價，最終會損害消費者的利益。

2020年，Klein在論文中曾提出了四種算法共謀的類型，并稱這類算法最難監(jiān)管，主要因為它們可以自主學(xué)習(xí)并促進壟斷形成。

關(guān)鍵是，企業(yè)也不知道算法究竟學(xué)到了什么策略，就像一個黑盒一樣，僅靠傳統(tǒng)的執(zhí)法框架是難以應(yīng)對的。

而且，這只是大模型之間的事兒，若是有了人類（比如商家）的參與，經(jīng)濟市場競爭豈不要變天？

上一篇：馬斯克的機器人徒手接個球，2000萬網(wǎng)友集體圍觀

下一篇：一年“增程”1.2萬公里！奔馳黑科技太瘋狂，混動車要下崗？

香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放