成人国产精品高清在线观看,久久久噜噜噜久久中文字幕色伊伊

GPT-4大模型硬核解讀！看完成半個(gè)專家

智東西

2023-04-02 15:42:15

作者 | 陳巍博士團(tuán)隊(duì)

引言：本文將以2萬字介紹GPT-4的核心技術(shù)要點(diǎn)、技術(shù)架構(gòu)、訓(xùn)練流程、算力、局限與產(chǎn)業(yè)未來。作者陳巍博士為AI/存算一體專家，曾擔(dān)任華為系自然語言處理企業(yè)的首席科學(xué)家。（深度技術(shù)科普與解讀文章，不涉及過多技術(shù)名詞或公式）

之前我們一直說自然語言處理是人工智能王冠上最大的那顆珍珠，但如今用世俗的珍珠或者王冠形容已經(jīng)不合適了。多模態(tài)大模型帶給人類世界的震撼，就如人工智能企業(yè)Hugging Face（因提供開源預(yù)訓(xùn)練模型庫而聞名）的聯(lián)合創(chuàng)始人Thomas Wolf所述：“在過去的幾年里，好的多模態(tài)模型一直是許多大型技術(shù)實(shí)驗(yàn)室的圣杯?！捌渲卸嗄B(tài)指的是融合文本、圖像、視頻或音頻等多種模態(tài)作為輸入或輸出。

作為“圣杯”的代表之一，GPT-4這個(gè)標(biāo)簽代表第4代生成式預(yù)訓(xùn)練變換模型（Generative Pre-trained Transformer 4），是OpenAI在2023年3月14日公開的一種多模態(tài)模型，是對(duì)前幾個(gè)月發(fā)布的ChatGPT的多模態(tài)升級(jí)。GPT-4模型可對(duì)圖文多模態(tài)輸入生成應(yīng)答文字，以及對(duì)視覺元素的分類、分析和隱含語義提取，并表現(xiàn)出優(yōu)秀的應(yīng)答能力。業(yè)內(nèi)文章大多從側(cè)面宣傳GPT-4的優(yōu)秀，卻很少觸及其核心技術(shù)內(nèi)核。

OpenAI的相關(guān)信息

本文將通過OpenAI和其他AI巨頭已發(fā)表的大語言模型或多模態(tài)論文來詳細(xì)闡述和分析與GPT-4相關(guān)核心技術(shù)要點(diǎn)、技術(shù)架構(gòu)、訓(xùn)練流程、算力、局限與產(chǎn)業(yè)未來，告訴大家為何我們的下一代會(huì)從“內(nèi)卷”過渡到“人機(jī)互卷”。

01 .

GPT-4核心技術(shù)有哪些？

1.1 理論基礎(chǔ)——多模態(tài)涌現(xiàn)能力

講到大語言模型的優(yōu)勢(shì)，一般首先要提到這類模型的涌現(xiàn)能力和思維鏈。這兩者是大語言模型不斷接近人類的關(guān)鍵特征。

我們之所以認(rèn)為GPT-4會(huì)是具有里程碑意義的一代，正是因?yàn)槎嗄B(tài)的GPT-4會(huì)從視覺角度和視覺-文字語義融合方面涌現(xiàn)出更多的能力。2022-2023年，我們可以認(rèn)為AI是第一次睜開雙眼理解這個(gè)世界。

在大型語言模型（LLM）中，涌現(xiàn)能力（Emergent Abilities）是指模型具有從原始訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)并發(fā)現(xiàn)新的、更高層次的特征和模式的能力。就中文釋義而言，涌現(xiàn)能力也指大語言模型涌現(xiàn)出來的新能力。這有點(diǎn)類似于去超市遇到買二贈(zèng)一，贈(zèng)品的質(zhì)量居然還出乎意料。

與大語言模型（LLM）相比，多模態(tài)大語言模型（Multi-modal Large Language Model，MLLM）可實(shí)現(xiàn)更好的常識(shí)推理性能，跨模態(tài)遷移更有利于知識(shí)獲取，產(chǎn)生更多新的能力，加速了能力的涌現(xiàn)。這些獨(dú)立模態(tài)或跨模態(tài)新特征、能力或模式通常不是通過目的明確的編程或訓(xùn)練獲得的，而是模型在大量多模態(tài)數(shù)據(jù)中自然而然的學(xué)習(xí)到的。

縮放定律（參數(shù)增加后精度損失連續(xù)減少）V.S. 涌現(xiàn)能力（1010-1011參數(shù)后新能力的涌現(xiàn)）（來源：OpenAI）

在語言模型發(fā)展的早期，通過在更多數(shù)據(jù)上訓(xùn)練更大的模型，可獲得近似連續(xù)的精確度提升。（可稱為縮放定律/Scaling Laws）到了2015年左右，隨著深度學(xué)習(xí)技術(shù)的發(fā)展和語料庫的增大，模型達(dá)到一定的臨界規(guī)模后，NLP開發(fā)者們發(fā)現(xiàn)，大語言模型（包括GPT-3、GLaM、LaMDA和Megatron-Turing NLG等）開始表現(xiàn)出一些開發(fā)者最開始未能預(yù)測(cè)的、更復(fù)雜的能力和特性，這些新能力和新特性被認(rèn)為是涌現(xiàn)能力的體現(xiàn)。

當(dāng)模型尺寸增加到一定大小后，新能力涌現(xiàn)（來源：Google/Deepmind）

我們?cè)谘芯縂PT-4時(shí)，發(fā)現(xiàn)GPT-4具備了OpenAI在預(yù)訓(xùn)練時(shí)和發(fā)表的技術(shù)報(bào)告中并未明確的能力。這些能力都屬于涌現(xiàn)出來的能力。

涌現(xiàn)能力是基于深度學(xué)習(xí)模型的分層結(jié)構(gòu)和權(quán)重學(xué)習(xí)機(jī)制實(shí)現(xiàn)的。涌現(xiàn)出來的能力可以是基于文本的，也可以是多模態(tài)的。我們可以將GPT-4這類大模型的訓(xùn)練視為解方程，每一層神經(jīng)元（可視為變量組合）的輸出都作為下一層神經(jīng)元的輸入，并且模型的每個(gè)權(quán)重（Weight）都通過強(qiáng)化學(xué)習(xí)算法進(jìn)行學(xué)習(xí)和更新。這種分層的結(jié)構(gòu)和權(quán)重學(xué)習(xí)機(jī)制使得深度學(xué)習(xí)模型能夠自動(dòng)的學(xué)習(xí)到從原始數(shù)據(jù)中提取隱含的特征和模式，從而實(shí)現(xiàn)涌現(xiàn)能力。

當(dāng)大語言模型被訓(xùn)練時(shí)，通過學(xué)習(xí)大量的多模態(tài)訓(xùn)練數(shù)據(jù)，并且根據(jù)數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律和模式自適應(yīng)的調(diào)整其內(nèi)部參數(shù)和結(jié)構(gòu)，從而表現(xiàn)出一些新的能力和特性。這類似于咱們常說的量變引發(fā)質(zhì)變。

涌現(xiàn)能力是大語言模型的重要特性，也是現(xiàn)在火爆的大模型各種能力的理論基礎(chǔ)。涌現(xiàn)能力使得GPT-4能夠在無需人工干預(yù)的情況下，從原始的多模態(tài)數(shù)據(jù)中自動(dòng)學(xué)習(xí)到復(fù)雜的特征和模式，從而實(shí)現(xiàn)更準(zhǔn)確和更高效的預(yù)測(cè)和決策。

涌現(xiàn)能力的另一個(gè)重要表現(xiàn)是模型的泛化能力。在沒有專門訓(xùn)練過的情況，GPT-4也可以泛化到新的、未知的多模態(tài)數(shù)據(jù)樣本上。這種泛化能力取決于模型的結(jié)構(gòu)和訓(xùn)練過程，以及數(shù)據(jù)的數(shù)量和多樣性。如果模型具有足夠的復(fù)雜性和泛化能力，就可以從原始數(shù)據(jù)中發(fā)現(xiàn)新的、未知的特征和模式。

當(dāng)然，GPT-4涌現(xiàn)出的新能力可能仍有局限性，例如：模型可能產(chǎn)生錯(cuò)誤的回答，對(duì)某些問題缺乏理解，容易受到輸入干擾等。目前認(rèn)為GPT-4的幻覺與其涌現(xiàn)能力具有相關(guān)性。

1.2 核心優(yōu)勢(shì)——多模態(tài)思維鏈

思維鏈（Chain of Thought）可視為大語言模型涌現(xiàn)出來的核心能力之一。之所以現(xiàn)在各類GPT研究火爆，也與模型訓(xùn)練出的思維鏈可進(jìn)入實(shí)用有密切關(guān)系。

思維鏈形成機(jī)制可以解釋為模型通過學(xué)習(xí)大量的語言數(shù)據(jù)來構(gòu)建一個(gè)關(guān)于語言結(jié)構(gòu)和意義的內(nèi)在表示，通過一系列中間自然語言推理步驟來完成最終輸出。思維鏈?zhǔn)荂hatGPT和GPT-4能讓大眾感覺到語言模型“像人”的關(guān)鍵特性。

雖然GPT-4這些模型并非具備真正的意識(shí)或思考能力，但用類似于人的推理方式的思維鏈來提示語言模型，極大的提高了GPT-4在推理任務(wù)上的表現(xiàn)，打破了精調(diào)（Fine-tune）的平坦曲線。具備了多模態(tài)思維鏈能力的GPT-4模型具有一定邏輯分析能力，已經(jīng)不是傳統(tǒng)意義上的詞匯概率逼近模型。

當(dāng)然思維鏈的訓(xùn)練可能并不容易。盡管現(xiàn)在有大量團(tuán)隊(duì)進(jìn)入大語言模型訓(xùn)練領(lǐng)域，但若干年內(nèi)能找到訓(xùn)練訣竅并完成思維鏈訓(xùn)練的團(tuán)隊(duì)可能不多。對(duì)創(chuàng)企來說，完成思維鏈的訓(xùn)練，才算真正拿到了這波大模型AI競(jìng)技的入場(chǎng)券。

思維鏈提示的示例（來源：Google）

通過多模態(tài)思維鏈技術(shù)，GPT-4將一個(gè)多步驟的問題（例如圖表推理）分解為可以單獨(dú)解決的中間步驟。在解決多步驟推理問題時(shí)，模型生成的思維鏈會(huì)模仿人類思維過程。這意味著額外的計(jì)算資源被分配給需要更多推理步驟的問題，可以進(jìn)一步增強(qiáng)GPT-4的表達(dá)和推理能力。

當(dāng)模型尺度增加到一定規(guī)模，思維鏈能力出現(xiàn)（來源：Google）

一般認(rèn)為模型的思維推理能力與模型參數(shù)大小有正相關(guān)趨勢(shì)，一般是突破一個(gè)臨界規(guī)模（大概62B，B代表10億），模型才能通過思維鏈提示的訓(xùn)練獲得相應(yīng)的能力。如果在6B以下，那很可能還只是GPT-2級(jí)別的初級(jí)模型。另外也有研究表明，在語言訓(xùn)練集中加入編程語言（例如Python編程代碼）可提升模型邏輯推理能力。具有思維鏈推理能力的GPT-4模型可用于簡(jiǎn)單數(shù)學(xué)問題、符號(hào)操作和常識(shí)推理等任務(wù)。

多模態(tài)思維鏈框架（來源：微軟）

GPT-4的多模態(tài)思維鏈?zhǔn)峭ㄟ^觀察大量的多模態(tài)數(shù)據(jù)來學(xué)習(xí)內(nèi)在表示，然后利用這個(gè)表示來生成連續(xù)的語言輸出的機(jī)制。這個(gè)過程是通過模型的訓(xùn)練、內(nèi)在表示的構(gòu)建和語言輸出的生成三個(gè)步驟來實(shí)現(xiàn)的。

1.3 編程范式——多模態(tài)提示工程

多模態(tài)大模型（如GPT-4）的提示工程（Prompt Engineering）是指根據(jù)特定的目標(biāo)和語境設(shè)計(jì)出一系列問題或任務(wù)，以便使用大模型生成有關(guān)主題或主題領(lǐng)域的連貫和有意義的文本。提示工程的目標(biāo)是通過精心設(shè)計(jì)提示以從模型中引出所需的響應(yīng)，來提高生成文本的質(zhì)量和相關(guān)性。提示工程與思維鏈的產(chǎn)生密不可分，也是目前自然語言編程的理論基礎(chǔ)。

語言模型的4種研究范式（來源：卡內(nèi)基梅隆大學(xué)）

大概在2017-2019年間，語言模型的研究重心逐漸從傳統(tǒng)特定領(lǐng)域的有監(jiān)督學(xué)習(xí)模式（基于非神經(jīng)網(wǎng)絡(luò)或神經(jīng)網(wǎng)絡(luò)）轉(zhuǎn)移到預(yù)訓(xùn)練模型上。在那時(shí)，基于預(yù)訓(xùn)練語言模型的研究范式通常是“預(yù)訓(xùn)練+精調(diào)”（Pre-train+Fine-tune），即在精調(diào)階段，根據(jù)下游任務(wù)對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)，以獲得更好效果。

但是由于模型越來越大，以及預(yù)訓(xùn)練階段和下游任務(wù)之間的差距可能很大，對(duì)各個(gè)細(xì)分領(lǐng)域Fine-tune的計(jì)算資源要求、訓(xùn)練數(shù)據(jù)需求和時(shí)間成本也在快速上漲。大量爆發(fā)的下游任務(wù)也使得175B這個(gè)級(jí)別模型預(yù)訓(xùn)練和精調(diào)變得異常復(fù)雜。在這種背景下，隨著GPT-3的發(fā)布，提示工程成為了預(yù)訓(xùn)練模型的新方向。形象的說，提示有點(diǎn)類似于老師在學(xué)生回答問題時(shí)指點(diǎn)回答方向。

提示方法（來源：卡內(nèi)基梅隆大學(xué)）

GPT-4/GPT-3模型中提示的新范式可歸納為“預(yù)訓(xùn)練+提示+預(yù)測(cè)”（Pre-train+Prompt+Predict）。在這一范式中，各種下游任務(wù)被調(diào)整為類似預(yù)訓(xùn)練任務(wù)的形式。通過選取合適的提示，使用者可以控制模型預(yù)測(cè)輸出，從而一個(gè)完全預(yù)訓(xùn)練模型可以被用來解決多樣的下游任務(wù)。

這里舉一個(gè)填充提示的簡(jiǎn)單例子。（上圖）我們從輸入x（比如電影評(píng)論）開始，然后輸出期望值y。其中一個(gè)任務(wù)是使用提示函數(shù)重新模板化此輸入，其輸出表示為x'。此時(shí)語言模型的任務(wù)僅僅是預(yù)測(cè)z值（句子中的一個(gè)詞）來代替占位符Z。然后對(duì)于Z被答案填充的提示，我們將其稱為填充提示。通過這一提示方式，在對(duì)應(yīng)細(xì)分場(chǎng)景下，語言模型將原來的問題的期望值y（一句話）簡(jiǎn)化為答案z（一個(gè)詞）的計(jì)算，明顯降低了應(yīng)答的復(fù)雜度。

提示工程使得GPT-3模型在訓(xùn)練樣本較少時(shí)獲得了更高精度（來源：OpenAI）

而GPT-4則針對(duì)多模態(tài)數(shù)據(jù)集，設(shè)計(jì)了對(duì)應(yīng)的提示。GPT-4的提示工程涉及幾個(gè)步驟，包括選擇合適的模型架構(gòu)和參數(shù)、設(shè)計(jì)提示格式和結(jié)構(gòu)、選擇合適的任務(wù)和訓(xùn)練數(shù)據(jù)，以及使用選定的提示和數(shù)據(jù)微調(diào)模型。更多GPT-4的提示細(xì)節(jié)還需等待OpenAI發(fā)布。

多模態(tài)提示示例（來源：微軟）

提示工程同時(shí)也提高了語言模型“可操縱性”，即模型根據(jù)用戶要求更改其行為的能力。例如，用戶可以命令GPT-4以不同的風(fēng)格、語氣或內(nèi)容特征來回答。例如“你是一個(gè)嘮叨的數(shù)據(jù)專家”或“你是一個(gè)言簡(jiǎn)意賅的數(shù)據(jù)專家”來開始提示，讓模型解釋一個(gè)數(shù)據(jù)科學(xué)概念。這里“嘮叨”和“言簡(jiǎn)意賅”操縱了模型回答的語言量。

1.4 關(guān)鍵技術(shù)——人類反饋強(qiáng)化學(xué)習(xí)

GPT-4/ChatGPT與GPT-3.5的主要區(qū)別在于，新加入了被稱為RLHF（Reinforcement

Learning from Human Feedback，人類反饋強(qiáng)化學(xué)習(xí)）的技術(shù)。這一訓(xùn)練范式增強(qiáng)了人類對(duì)模型輸出結(jié)果意向（Intent）的調(diào)節(jié)，并且對(duì)結(jié)果進(jìn)行了更具理解性的排序。

OpenAI在其早期的學(xué)術(shù)報(bào)告中公開表示，與人類偏好保持一致，是許多領(lǐng)域人工智能研究和部署的核心組成部分。OpenAI希望通過RLHF技術(shù)，模型能傾向出高質(zhì)量回答，確保模型輸出對(duì)人類有益，進(jìn)而保證模型的安全性。就筆者團(tuán)隊(duì)分析來看，RLHF也是保持多輪對(duì)話不偏離主題的關(guān)鍵保障。

GPT-4/ChatGPT最初引入人類標(biāo)記員的主要目的是加快訓(xùn)練速度和質(zhì)量。盡管強(qiáng)化學(xué)習(xí)技術(shù)在很多領(lǐng)域有突出表現(xiàn)，但是仍然存在著許多不足，例如訓(xùn)練收斂速度慢，訓(xùn)練成本高等特點(diǎn)。特別是現(xiàn)實(shí)世界中，許多任務(wù)的探索成本或數(shù)據(jù)獲取成本很高。如何加快訓(xùn)練效率，是如今強(qiáng)化學(xué)習(xí)任務(wù)待解決的重要問題之一。

TAMER架構(gòu)在強(qiáng)化學(xué)習(xí)中的應(yīng)用

這里以TAMER（Training an Agent Manually via Evaluative Reinforcement，評(píng)估式強(qiáng)化人工訓(xùn)練代理）框架為例。該框架將人類標(biāo)記員引入到模型代理（Agents）的學(xué)習(xí)循環(huán)中，可以通過人類向代理提供獎(jiǎng)勵(lì)反饋（即指導(dǎo)Agents進(jìn)行訓(xùn)練），從而快速達(dá)到訓(xùn)練任務(wù)目標(biāo)。

GPT-4的多模態(tài)獎(jiǎng)勵(lì)模型（RM）是小號(hào)的有監(jiān)督精調(diào)模型（SFT），但在頂部添加了一個(gè)新的線性層來預(yù)測(cè)獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)模型的輸入是原始輸入加上SFT模型生成的輸出。

在具體實(shí)現(xiàn)上，人類標(biāo)記員扮演對(duì)話的用戶和人工智能助手，提供多模態(tài)對(duì)話樣本，讓模型生成一些回復(fù)，然后標(biāo)記者會(huì)對(duì)回復(fù)選項(xiàng)打分排名，將更好的結(jié)果反饋回模型中。代理（Agents）同時(shí)從兩種反饋模式中學(xué)習(xí)——人類強(qiáng)化和馬爾可夫決策過程獎(jiǎng)勵(lì)作為一個(gè)整合的系統(tǒng)，通過獎(jiǎng)勵(lì)策略對(duì)模型進(jìn)行微調(diào)并持續(xù)迭代。

獎(jiǎng)勵(lì)模型的過擬合導(dǎo)致模型性能下降（來源：OpenAI）

因?yàn)槟Ｐ蛢H僅從狹窄分布的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)，所以GPT-4中獎(jiǎng)勵(lì)模型只是人類偏好的部分表征（管中窺豹），過度的訓(xùn)練反而可能導(dǎo)致獎(jiǎng)勵(lì)模型過擬合（以偏見代替整體），并導(dǎo)致模型訓(xùn)練效果的下降。另一方面，模型的人類標(biāo)注員可能也無法代表用戶所在地區(qū)人群的總體偏好。

1.5 安全技術(shù)——基于規(guī)則的獎(jiǎng)勵(lì)模型

安全是大模型商用的關(guān)鍵要素，OpenAI也投入了大量資源來提高GPT-4的安全性和一致性。包括引入領(lǐng)域?qū)＜疫M(jìn)行對(duì)抗性測(cè)試和紅隊(duì)測(cè)試，模型輔助的安全流水線以及安全指標(biāo)的改進(jìn)。OpenAI引入的領(lǐng)域安全專家達(dá)到了50多人，覆蓋AI一致性風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)等領(lǐng)域。

與ChatGPT一樣，GPT-4也使用了強(qiáng)化學(xué)習(xí)和人類反饋（RLHF）來微調(diào)模型的行為，以產(chǎn)生更符合用戶意圖的響應(yīng)。但當(dāng)給定不安全的輸入時(shí)，模型可能會(huì)生成不良內(nèi)容，例如提供有關(guān)犯罪的建議。另外，模型也可能對(duì)安全輸入變得過于謹(jǐn)慎，拒絕無害的請(qǐng)求。

GPT-4的安全流水線包括兩個(gè)主要部分：一組額外的安全相關(guān)RLHF訓(xùn)練提示，以及基于規(guī)則的獎(jiǎng)勵(lì)模型。

基于規(guī)則的獎(jiǎng)勵(lì)模型（Rule-based Reward Model，RBRM）是一組zero-shot迷你GPT-4分類器，根據(jù)預(yù)定義的規(guī)則為特定動(dòng)作或事件分配獎(jiǎng)勵(lì)。在這種模型中，獎(jiǎng)勵(lì)是根據(jù)事先定義的一組規(guī)則確定的，而不是從數(shù)據(jù)中學(xué)習(xí)得到的。這些分類器在RLHF微調(diào)期間為GPT-4策略模型提供額外的獎(jiǎng)勵(lì)信號(hào)，以正確的輸出行為為目標(biāo)進(jìn)行訓(xùn)練，例如拒絕生成有害內(nèi)容或不拒絕無害的請(qǐng)求。

基于規(guī)則的獎(jiǎng)勵(lì)模型（來源：日本國(guó)立信息學(xué)研究所）

很多早期的NLP模型和軟件就是基于規(guī)則的（包括各種早期的智能音箱/”人工智障”），但這類模型在泛化場(chǎng)景下表現(xiàn)不佳，只能回答相對(duì)固定的問題，并不具備現(xiàn)在的大語言模型的涌現(xiàn)能力。

GPT-4中使用RBRM的目的是充分借助其優(yōu)勢(shì)，即模型中使用的規(guī)則可以簡(jiǎn)單實(shí)用一些，建立成本低于常規(guī)獎(jiǎng)勵(lì)模型。例如，在象棋等游戲中，規(guī)則可能很簡(jiǎn)單。在更復(fù)雜的情況下，規(guī)則可能相對(duì)復(fù)雜，例如為實(shí)現(xiàn)特定目標(biāo)或達(dá)到一定的性能水平授予獎(jiǎng)勵(lì)，但總體來說比構(gòu)建獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)集成本更低。

規(guī)則獎(jiǎng)勵(lì)模型通常用于強(qiáng)化學(xué)習(xí)，其中代理被訓(xùn)練為采取最大化獎(jiǎng)勵(lì)信號(hào)的行動(dòng)。在這種情況下，規(guī)則獎(jiǎng)勵(lì)模型基于代理是否遵循特定規(guī)則或?qū)崿F(xiàn)特定目標(biāo)，為代理分配獎(jiǎng)勵(lì)。

規(guī)則獎(jiǎng)勵(lì)模型的優(yōu)點(diǎn)允許更多地控制學(xué)習(xí)過程。通過事先指定規(guī)則，開發(fā)人員可以引導(dǎo)學(xué)習(xí)過程，使其專注于特定的行為或結(jié)果。

基于規(guī)則的獎(jiǎng)勵(lì)模型在樣本較少情況下表現(xiàn)出較好性能（來源：Meta AI）

基于規(guī)則的獎(jiǎng)勵(lì)模型的主要特點(diǎn)如下：

1、規(guī)則的可定義性：根據(jù)預(yù)先定義的規(guī)則來為模型的輸出分配獎(jiǎng)勵(lì)。這些規(guī)則通常由領(lǐng)域?qū)＜一蚋哔|(zhì)量的人類標(biāo)注員制定，以確保獎(jiǎng)勵(lì)與任務(wù)目標(biāo)和期望行為保持一致。

2、規(guī)則的可解釋性：獎(jiǎng)勵(lì)模型依賴于明確的規(guī)則，這些一般具有較高的可讀性和可解釋性。以方便開發(fā)人員解讀和調(diào)試模型。

3、規(guī)則的可調(diào)整性：通過修改或添加新的規(guī)則，可以相對(duì)容易地調(diào)整獎(jiǎng)勵(lì)函數(shù)，以適應(yīng)不同的任務(wù)和環(huán)境或更復(fù)雜的規(guī)則。

基于規(guī)則的獎(jiǎng)勵(lì)模型也存在一些局限性，包括：

1、缺乏場(chǎng)景泛化能力：因?yàn)榛谝?guī)則的獎(jiǎng)勵(lì)模型嚴(yán)重依賴于預(yù)先定義的規(guī)則，可能在未知或新的情況下泛化能力較弱，這可能導(dǎo)致模型在面對(duì)新的情況時(shí)出現(xiàn)幻覺現(xiàn)象或無法做出合適的應(yīng)答。

2、規(guī)則設(shè)計(jì)的復(fù)雜性：例如對(duì)于復(fù)雜任務(wù)，設(shè)計(jì)適當(dāng)?shù)囊?guī)則有可能非常耗時(shí)。此外，如果規(guī)則過于復(fù)雜或內(nèi)部自相矛盾，可能導(dǎo)致模型訓(xùn)練不出有效的策略。

3、規(guī)則的學(xué)習(xí)效率有下降可能：由于模型需要在給定的規(guī)則集合中探索最佳策略，在規(guī)則設(shè)計(jì)不理想的情況下，基于規(guī)則的獎(jiǎng)勵(lì)模型可能導(dǎo)致較低的學(xué)習(xí)效率或過擬合。

1.6 優(yōu)化技術(shù)——近端策略優(yōu)化（PPO）算法

GPT-4/ChatGPT中的近端策略優(yōu)化（Proximal Policy Optimization，PPO）算法是一種高效的強(qiáng)化學(xué)習(xí)優(yōu)化策略算法，由OpenAI的John Schulman等人于2017年提出。在GPT-4/ChatGPT里的使用應(yīng)該算是新瓶裝舊酒。

PPO的前輩TRPO（Trust Region Policy Optimization）相對(duì)復(fù)雜，并且與包含噪聲（例如Dropout）或參數(shù)共享（在策略和價(jià)值函數(shù)之間，或輔助任務(wù)）的架構(gòu)不兼容。PPO算法試圖解決上述問題，以及計(jì)算復(fù)雜性和難以調(diào)整的超參數(shù)。PPO通過簡(jiǎn)化優(yōu)化問題并限制策略更新的幅度，實(shí)現(xiàn)了更高效、更穩(wěn)定的學(xué)習(xí)過程，具有實(shí)現(xiàn)簡(jiǎn)單、能同時(shí)處理離散\連續(xù)動(dòng)作空間問題、可大規(guī)模訓(xùn)練等優(yōu)勢(shì)。

PPO算法與同類其他算法的比較（來源：OpenAI）

PPO算法衍生于早期的策略梯度（Policy Gradient）算法，但通過一些技巧改進(jìn)了其性能和穩(wěn)定性，能夠處理連續(xù)動(dòng)作空間的問題。PPO在策略更新時(shí)限制新策略與舊策略之間的差異，從而確保策略改進(jìn)的穩(wěn)定性。這通過在目標(biāo)函數(shù)中引入一個(gè)“代理”目標(biāo)函數(shù)來實(shí)現(xiàn)，該代理目標(biāo)函數(shù)限制了新策略和舊策略之間的KL散度。

PPO算法的核心思想是在每次迭代中，通過一種稱為近端策略優(yōu)化（Proximal Policy Optimization）的方法來更新策略參數(shù)，以最大化預(yù)期收益。具體來說，PPO算法采用兩個(gè)神經(jīng)網(wǎng)絡(luò)來表示模型的策略：一個(gè)執(zhí)行動(dòng)作（Actor），另一個(gè)處理獎(jiǎng)勵(lì)（Critic）。在每次迭代中，PPO算法會(huì)從環(huán)境中采樣一批經(jīng)驗(yàn)數(shù)據(jù)，并使用這些數(shù)據(jù)來更新策略參數(shù)和價(jià)值參數(shù)。更新的策略將被ε-clip到一個(gè)小區(qū)域，以防止可能具有不可恢復(fù)危害的巨大更新。換句話說，優(yōu)化的步伐不能太大也不能過小。

PPO算法的主要特點(diǎn)如下：

1）裁剪的目標(biāo)函數(shù)：PPO通過裁剪策略比率（新策略概率與舊策略概率之比）來限制更新幅度。這種裁剪保證了新策略在舊策略的附近，使得更新更加穩(wěn)定。

2）重要度采樣：PPO利用重要度采樣來估計(jì)策略梯度，從而可以重復(fù)使用之前的經(jīng)驗(yàn)來更新策略。這使得PPO在數(shù)據(jù)效率上更具優(yōu)勢(shì)。

3）多次更新：PPO算法在每次收集一批數(shù)據(jù)后，對(duì)策略進(jìn)行多次更新。這可以提高算法的收斂速度和穩(wěn)定性。

4）簡(jiǎn)化的優(yōu)化問題：相比于其他方法，如TRPO，PPO算法將優(yōu)化問題簡(jiǎn)化為一階優(yōu)化問題，這大大減少了計(jì)算復(fù)雜性。

1.7 安全技術(shù)——多模態(tài)幻覺檢測(cè)

大型語言模型（Large Language Model，LLM）的幻覺（Hallucination）指的是模型生成的輸出包含一些與輸入不符合的信息，這些信息可能是錯(cuò)誤的、無關(guān)的或者荒謬的。與人類直覺相反，隨著模型變得更加以假亂真，幻覺會(huì)變得更加危險(xiǎn)。GPT-4等模型的這種幻覺可能會(huì)出現(xiàn)在各種類型的任務(wù)中，比如文本生成、圖文分析和問答系統(tǒng)等。

由于大模型（包括GPT-4）本質(zhì)上可以視為訓(xùn)練集（人類知識(shí)/語言）的有損壓縮，因此在模型運(yùn)行時(shí)無法完整復(fù)現(xiàn)或者應(yīng)答原始知識(shí)，從而模型的幻覺來自于信息壓縮的偏差。多模態(tài)幻覺的本質(zhì)是這種有損壓縮偏差的體現(xiàn)，也是通過數(shù)學(xué)逼近人類語言的必然代價(jià)。（類似于壓縮后的圖像邊緣出現(xiàn)不正常的條紋）。

大語言模型可視為知識(shí)/語言的有損壓縮

幻覺包括以下幾類：

1、含義相關(guān)性（Semantic Relatedness）的幻覺：模型生成的輸出可能包含與輸入語境無關(guān)或不相關(guān)的單詞或短語，這些單詞或短語通常是通過模型之前接觸過的文本來學(xué)習(xí)的。

2、語義擴(kuò)張（Semantic Expansion）的幻覺：模型生成的輸出可能包含與輸入語境相關(guān)但是過于具體或者過于抽象的內(nèi)容，這些內(nèi)容也可能是通過模型之前接觸過的文本來學(xué)習(xí)的。

3、結(jié)構(gòu)錯(cuò)誤（Structural Errors）的幻覺：模型生成的輸出可能不符合正確的語言表達(dá)或句子結(jié)構(gòu)，這些錯(cuò)誤可能是由于模型在生成時(shí)遺漏了某些信息，或者將不相關(guān)的信息結(jié)合在一起導(dǎo)致的。

為了降低幻覺出現(xiàn)的概率，改善模型質(zhì)量，Meta AI提出一種幻覺內(nèi)容檢測(cè)機(jī)制。通過檢測(cè)生成內(nèi)容中的幻覺令牌/單詞，對(duì)生成內(nèi)容的真實(shí)度進(jìn)行評(píng)估，以減少模型幻覺出現(xiàn)的概率。從GPT-4的幻覺減少比率來看，猜測(cè)類似該技術(shù)的方法或已應(yīng)用在GPT-4中。

通過幻覺單詞檢測(cè)器減少幻覺（來源：Meta AI）

幻覺是GPT-4等大型語言模型中一個(gè)重要的問題，通過不斷的優(yōu)化模型和改進(jìn)訓(xùn)練方法，或增加多模態(tài)幻覺語義檢測(cè)器，研究人員可以逐步提高模型的準(zhǔn)確性和穩(wěn)定性，從而更好地滿足各種自然語言處理任務(wù)的需求。

1.8 模型信息——關(guān)于模型大小

目前OpenAI還沒有發(fā)布GPT-4模型大小和結(jié)構(gòu)的具體信息。GPT-4的技術(shù)報(bào)告也沒有透露這些技術(shù)細(xì)節(jié)，訓(xùn)練數(shù)據(jù)或訓(xùn)練方法也沒有相關(guān)信息釋放出來。大模型的商業(yè)化競(jìng)爭(zhēng)正愈演愈烈。

Bing反饋的GPT-4模型大小

GPT-3是目前最大的知名語言模型之一，包含了1750億（175B）個(gè)參數(shù)。在GPT-3發(fā)布之前，最大的語言模型是微軟的Turing NLG模型，大小為17億（1.7B）個(gè)參數(shù)。在GPT-3發(fā)布后不久，OpenAI團(tuán)隊(duì)就曾表示他們計(jì)劃在未來幾年內(nèi)研發(fā)更大的模型。而隨著技術(shù)和算法的不斷發(fā)展，GPT-4模型似乎也應(yīng)朝著更大的尺寸發(fā)展。

另外，GPT-4的上下文窗口尺寸也較GPT-3.5和GPT-3增大了不少。2020年發(fā)布的GPT-3模型上下文窗口為2049個(gè)令牌。在GPT-3.5中，窗口增加到4096個(gè)令牌（約3頁單行英文文本）。GPT-4有兩種尺寸。其中一個(gè)（GPT-4-8K）的上下文窗口大小為8192個(gè)令牌，另一個(gè)（GPT-4-32K）可以處理多達(dá)32768個(gè)令牌，大約50頁文本。

有傳言說GPT-4模型大概是GPT-3的100倍或1000倍。從訓(xùn)練的角度看，這么大的模型膨脹可能會(huì)消耗更多的訓(xùn)練資源和訓(xùn)練周期的過度延長(zhǎng)。

GPT-4與GPT-3.5的執(zhí)行速度對(duì)比（來源：ARK投資）

根據(jù)ARK的分析，GPT-4的執(zhí)行時(shí)間大概是GPT-3.5的3.7倍。由此我們初步估算GPT-4的文本語言部分的大小大約是62B-650B之間。根據(jù)目前GPT模型性能的發(fā)展趨勢(shì)，以及多模態(tài)技術(shù)的加持，預(yù)計(jì)GPT-4的模型參數(shù)大概為62B-1500B之間。

02 .

GPT-4的原理是什么？

GPT-4這一代，是嚴(yán)格意義上的多模態(tài)模型，可以支持圖像和文字兩類信息的同時(shí)輸入。之前的ChatGPT多模態(tài)感知是實(shí)現(xiàn)通用人工智能的必要條件，無論是知識(shí)/能力獲取還是與現(xiàn)實(shí)物理世界的交互。之前的ChatGPT就像AI蒙上雙眼在那里盲答，而多模態(tài)就是AI一邊看一邊思考。多模態(tài)技術(shù)將語言模型的應(yīng)用拓寬了到更多高價(jià)值領(lǐng)域，例如多模態(tài)人機(jī)交互、文檔處理和機(jī)器人交互技術(shù)。

在GPT-4中，多模態(tài)輸入的圖像和文本基于Transformer作為通用接口，圖形感知模塊與語言模塊對(duì)接進(jìn)行進(jìn)一步計(jì)算。通過在多模態(tài)語料庫上訓(xùn)練模型，包括文本數(shù)據(jù)、任意交錯(cuò)的圖像和文本，以及圖像-字幕對(duì)，可以使模型獲得原生支持多模態(tài)任務(wù)的能力。

下面先介紹GPT家族，然后引申到GPT-4的多模態(tài)架構(gòu)和獨(dú)特性。

2.1 從GPT-1到ChatGPT

說到GPT-4，就不得不提到GPT家族。GPT之前有幾個(gè)的前輩，包括GPT-1、GPT-2和GPT-3和ChatGPT。GPT家族與BERT模型都是知名的NLP模型族，都基于Transformer技術(shù)。GPT-1只有12層，而到了GPT-3，則增加到96層。GPT-4增加了額外的視覺語言模塊，理論上具有更大的模型尺寸和輸入窗口。

視覺與語言Transformer技術(shù)的演進(jìn)

GPT和BERT之前的時(shí)代

最早的NLP技術(shù)是基于規(guī)則的，即基于特定的規(guī)則使用程序進(jìn)行固定模式的對(duì)話，所有的應(yīng)答都是固定模式的。在深度學(xué)習(xí)誕生后，NLP技術(shù)逐漸進(jìn)入基于模型的時(shí)代。文本生成是通過遞歸神經(jīng)網(wǎng)絡(luò)（RNN）或各種長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)（LSTM）實(shí)現(xiàn)的。這些模型能夠較好的進(jìn)行模式識(shí)別，在輸出單個(gè)單詞或短語方面表現(xiàn)良好，但無法生成高精度的多輪對(duì)話，更無法實(shí)現(xiàn)邏輯推理能力。

GPT-1模型的Transformer結(jié)構(gòu)

2018年6月，OpenAI發(fā)表了GPT-1，GPT家族首次登上歷史舞臺(tái)。GPT-1模型訓(xùn)練使用了BooksCorpus數(shù)據(jù)集。訓(xùn)練主要包含兩個(gè)階段：第一個(gè)階段，先利用大量無標(biāo)注的語料預(yù)訓(xùn)練一個(gè)語言模型，接著，在第二個(gè)階段對(duì)預(yù)訓(xùn)練好的語言模型進(jìn)行精調(diào)，將其遷移到各種有監(jiān)督的NLP任務(wù)。也就是前面提到過的“預(yù)訓(xùn)練+精調(diào)”模式。

GPT-1的核心是Transformer。Transformer在數(shù)學(xué)上是大矩陣的計(jì)算，通過計(jì)算不同語義之間的關(guān)聯(lián)度（概率）來生成具有最高概率的語義反饋。

GPT-1著重解決兩個(gè)問題：

1）通過無監(jiān)督訓(xùn)練解決需要大量高質(zhì)量標(biāo)注數(shù)據(jù)的問題。

2）通過大量語料訓(xùn)練解決訓(xùn)練任務(wù)的泛化問題。

BERT與GPT的技術(shù)基本架構(gòu)對(duì)比（圖中En為輸入的每個(gè)字，Tn為輸出回答的每個(gè)字）

GPT-2

2019年，OpenAI發(fā)表了另一篇關(guān)于他們最新模型GPT-2的論文（Language Models are Unsupervised Multitask Learners）。該模型開源并在一些NLP任務(wù)中開始使用。相對(duì)GPT-1，GPT-2是泛化能力更強(qiáng)的詞向量模型，盡管并沒有過多的結(jié)構(gòu)創(chuàng)新，但是訓(xùn)練數(shù)據(jù)集（WebText，來自于Reddit上高贊的文章）和模型參數(shù)量更大。目前很多開源的GPT類模型是基于GPT-2進(jìn)行的結(jié)構(gòu)修改或優(yōu)化。

GPT-3

2020年6月，OpenAI發(fā)表了另一篇關(guān)于GPT-3模型的論文（Language Models are Few-Shot Learners）。該模型的參數(shù)是GPT-2的100倍（175B），并且在更大的文本數(shù)據(jù)集（低質(zhì)量的Common Crawl，高質(zhì)量的WebText2，Books1，Books2和Wikipedia）上進(jìn)行訓(xùn)練，從而獲得更好的模型性能。GPT-3實(shí)際上由多個(gè)版本組成的第3代家族，具有不同數(shù)量的參數(shù)和所需的計(jì)算資源。包括專門用于代碼編程的code系列。GPT-3的后繼知名版本包括InstructGPT和ChatGPT。

GPT-3家族

GPT-3.5/ChatGPT

2022年3月15日，OpenAI發(fā)布了名為“text-davinci-003”的新版GPT-3，該模型被描述為比以前版本的GPT更強(qiáng)大。目前有若干個(gè)屬于GPT-3.5系列的模型分支，其中code-davinci針對(duì)代碼完成任務(wù)進(jìn)行了優(yōu)化。

ChatGPT是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架構(gòu)開發(fā)的對(duì)話AI模型，是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演練，或用于收集大量對(duì)話數(shù)據(jù)。

OpenAI使用RLHF（Reinforcement Learning from Human Feedback，人類反饋強(qiáng)化學(xué)習(xí)）技術(shù)對(duì)ChatGPT進(jìn)行了訓(xùn)練，且加入了更多人工監(jiān)督進(jìn)行微調(diào)。

ChatGPT具有以下特征：

1）可以主動(dòng)承認(rèn)自身錯(cuò)誤。若用戶指出其錯(cuò)誤，模型會(huì)聽取意見并優(yōu)化答案。

2）ChatGPT可以質(zhì)疑不正確的問題。例如被詢問“哥倫布2015年來到美國(guó)的情景”的問題時(shí)，機(jī)器人會(huì)說明哥倫布不屬于這一時(shí)代并調(diào)整輸出結(jié)果。

3）ChatGPT可以承認(rèn)自身的無知，承認(rèn)對(duì)專業(yè)技術(shù)的不了解。

4）支持連續(xù)多輪對(duì)話。

與大家在生活中用到的各類智能音箱和“人工智障”不同，ChatGPT在對(duì)話過程中會(huì)記憶先前使用者的對(duì)話訊息，即上下文理解，以回答某些假設(shè)性的問題。ChatGPT可實(shí)現(xiàn)連續(xù)對(duì)話，極大的提升了對(duì)話交互模式下的用戶體驗(yàn)。

從GPT-1到GPT-4的對(duì)比（含BERT，筆者團(tuán)隊(duì)繪制）

2.2 GPT-4的多模態(tài)架構(gòu)

到了GPT-4，技術(shù)內(nèi)涵產(chǎn)生的飛躍其實(shí)超過了ChatGPT。有些人認(rèn)為GPT-4僅僅是GPT-3.5的升級(jí)優(yōu)化，這其實(shí)是一種誤解。大部分人可能還未看到GPT-4帶來的巨大影響。

人類或其他高等生物的認(rèn)知能力通常與從多種模式中學(xué)習(xí)有關(guān)。例如，蘋果這一概念包括從視覺和語言獲得的多重語義。包括蘋果的顏色、形狀、紋理以及吃蘋果的聲音，蘋果在詞典或其他網(wǎng)絡(luò)媒體的相應(yīng)定義等等。我們大多數(shù)人在學(xué)習(xí)認(rèn)字的時(shí)候，也是先看到蘋果的卡片圖像，然后再記住對(duì)應(yīng)的文字。

與BERT模型類似，GPT-4之前的ChatGPT或GPT-3.5都是根據(jù)輸入語句，根據(jù)語言/語料概率來自動(dòng)生成回答的每一個(gè)字（詞語）。從數(shù)學(xué)或從機(jī)器學(xué)習(xí)的角度來看，語言模型是對(duì)詞語序列的概率相關(guān)性分布的建模，即利用已經(jīng)說過的語句（語句可以視為數(shù)學(xué)中的向量）作為輸入條件，預(yù)測(cè)下一個(gè)時(shí)刻不同語句甚至語言集合出現(xiàn)的概率分布。包括“蘋果”在GPT-3.5和之前的GPT中只是單純的語義符號(hào)和概率。

GPT-4等模型新出現(xiàn)的多模態(tài)輸入的能力對(duì)語言模型至關(guān)重要，使得“蘋果”等單純的符號(hào)語義擴(kuò)展為更多的內(nèi)涵。第一，多模態(tài)感知使語言模型能夠獲得文本描述之外的常識(shí)性知識(shí)。第二，感知與語義理解的結(jié)合為新型任務(wù)提供了可能性，例如機(jī)器人交互技術(shù)和多媒體文檔處理。第三，通過感知統(tǒng)一了接口。圖形界面其實(shí)是最自然和高效的人機(jī)自然交互方式。多模態(tài)大語言模型可通過圖形方式直接進(jìn)行信息交互，提升交互效率。

多模態(tài)模型可以從多種來源和模式中學(xué)習(xí)知識(shí)，并使用模態(tài)的交叉關(guān)聯(lián)來完成任務(wù)。通過圖像或圖文知識(shí)庫學(xué)習(xí)的信息可用于回答自然語言問題；從文本中學(xué)到的信息也可在視覺任務(wù)中使用。

截至2023年初，多模態(tài)大模型正經(jīng)歷將圖文信息進(jìn)行對(duì)齊，進(jìn)行模態(tài)認(rèn)知管理，進(jìn)一步形成多模態(tài)決策或生成。常見的多模態(tài)大模型包括：

1）圖像描述生成或文本生成圖像。例如最近知名的CLIP、Stable Diffusion。

2）圖文問答。例如帶有圖示的物理題求解或圖表分析。

3）文本到圖像或圖像到文本的檢索。

4）視頻流描述。

多模態(tài)模型的5種典型結(jié)構(gòu)（來源：深圳鵬城實(shí)驗(yàn)室）

根據(jù)鵬城實(shí)驗(yàn)室新發(fā)出的論文歸納，目前常見的多模態(tài)模型架構(gòu)主要包括以下幾種：

1）合并注意力架構(gòu)（Merge-attention）：如上圖(a)，多個(gè)輸入模態(tài)調(diào)整為同一的特征表示，多個(gè)模態(tài)的特征在自注意力之前被合并，共同進(jìn)入Transformer。

2）共同注意力架構(gòu)（Co-attention）：如上圖(b)，每個(gè)輸入模態(tài)都具備私有自注意力通道，用于模態(tài)獨(dú)立特征的導(dǎo)入，然后再使用共同的交叉注意力層融合多模態(tài)特征。

3）交叉注意力架構(gòu)（Cross-attention）：對(duì)于多模態(tài)任務(wù)，將圖像與語言分別結(jié)合，實(shí)現(xiàn)圖文信息的相互嵌入與問答。

4）三角Transformer架構(gòu)（Tangled-transformer）：使用三組Transformer模塊同時(shí)處理動(dòng)作、圖形對(duì)象和語言特征，通過特定的三角連接關(guān)系，注入其他模態(tài)的Transformer網(wǎng)絡(luò)，以不同模態(tài)的信息融合。

5）模態(tài)間對(duì)比學(xué)習(xí)架構(gòu)（Inter-Modality Contrastive Learning）：不同模態(tài)的信息被分解，通過矩陣結(jié)構(gòu)建立多模態(tài)對(duì)比學(xué)習(xí)關(guān)聯(lián)。

目前評(píng)估OpenAI采用該種交叉注意力架構(gòu)的研發(fā)GPT-4的代價(jià)最小，可以大幅度使用ChatGPT中已經(jīng)構(gòu)建的語言模塊。從筆者團(tuán)隊(duì)的分析看，GPT-4很有可能正是采用這類架構(gòu)。

2.3 GPT-4的獨(dú)特性

GPT-4是最新且最先進(jìn)的OpenAI多模態(tài)大模型。并在多個(gè)基準(zhǔn)任務(wù)上取得了非常好的成績(jī)，包括圖像字幕、圖文問答、代碼生成和法律推理。優(yōu)秀的圖文分析和邏輯推理能力鑄就了GPT-4的護(hù)城河。

GPT-4在大部分任務(wù)上優(yōu)于人類水平平均值（來源：LifeArchitect）

GPT-4能夠生成比GPT-3.5或其他語言模型更符合事實(shí)的準(zhǔn)確陳述，確保更高的可靠性和可信度。GPT-4也可接受圖文信息作為輸入并生成說明、分類和分析。

盡管GPT-4已經(jīng)投入商業(yè)使用，但大多數(shù)用戶仍需要等待圖文能力的正式開放。

GPT-4與其他大模型的比較（來源：Janna Lipenkova）

03 .

GPT-4訓(xùn)練技術(shù)分析

3.1 GPT-4訓(xùn)練數(shù)據(jù)集

GPT-4的訓(xùn)練數(shù)據(jù)集是基于GPT-3和GPT-3.5的訓(xùn)練數(shù)據(jù)集構(gòu)建的，并在兩者基礎(chǔ)上增加了多模態(tài)數(shù)據(jù)集。僅當(dāng)時(shí)GPT-3.5的訓(xùn)練數(shù)據(jù)收集就是由一項(xiàng)艱巨且重要的任務(wù)：數(shù)據(jù)集貢獻(xiàn)來自一個(gè)由30-50名OpenAI員工組成的團(tuán)隊(duì)，并另外從第三方網(wǎng)站雇傭了固定的大約50-100名固定的標(biāo)注員。到了GPT-4又增加了大量多模態(tài)數(shù)據(jù)。

GPT-4數(shù)據(jù)集構(gòu)成（預(yù)測(cè)）

OpenAI在預(yù)訓(xùn)練階段過濾GPT-4的數(shù)據(jù)集組合，以專門減少不適當(dāng)?shù)奈谋緝?nèi)容的數(shù)量。并通過結(jié)合內(nèi)部訓(xùn)練的分類器和基于詞典的方法來識(shí)別含有不當(dāng)內(nèi)容的數(shù)據(jù)。

其中來自GPT-3的預(yù)訓(xùn)練數(shù)據(jù)集包括約570GB（該大小為去重過濾后的，去重過濾前大概45TB）的CommonCrawl數(shù)據(jù)，大概是410B字節(jié)對(duì)編碼的令牌，以及19B的WebText2數(shù)據(jù)，合計(jì)67B的書籍?dāng)?shù)據(jù)和3B Wiki數(shù)據(jù)。這些數(shù)據(jù)被整合為約300B大小的GPT-3預(yù)訓(xùn)練數(shù)據(jù)集。其中Wiki數(shù)據(jù)質(zhì)量最高，在訓(xùn)練中平均被重復(fù)使用了3.4次。

GPT-3.5標(biāo)注員學(xué)歷和國(guó)籍構(gòu)成

GPT-3.5的數(shù)據(jù)集包括SFT數(shù)據(jù)集、RM數(shù)據(jù)集和PPO訓(xùn)練數(shù)據(jù)集。在最關(guān)鍵的SFT訓(xùn)練集中，標(biāo)注員撰寫比例為89.3%，100%由標(biāo)注員標(biāo)記。RM模型較小但是訓(xùn)練集數(shù)量更多，達(dá)到33K。

可以看出，無論是GPT-3還是GPT-3.5的訓(xùn)練集中，數(shù)據(jù)質(zhì)量的重要性都遠(yuǎn)超過數(shù)據(jù)的數(shù)量。（互聯(lián)網(wǎng)大廠或許只剩下資金、應(yīng)用和渠道優(yōu)勢(shì)？）其中訓(xùn)練GPT-3.5 175B SFT模型僅需要算力資源4.9 petaflops/s-days，訓(xùn)練GPT-3.5175B PPO-ptx模型需要60 petaflops/s-days，而預(yù)訓(xùn)練GPT-3卻需要3640 petaflops/s-days的算力資源，是175B PPO-ptx的60.7倍。極少量的高質(zhì)量標(biāo)注數(shù)據(jù)卻顯著提升了GPT-3.5的應(yīng)答能力。這就好比好的教材勝過大量普通書籍。

GPT-4的多模態(tài)訓(xùn)練數(shù)據(jù)集由圖片和文本共同構(gòu)成（一般是單幅圖片+多行文本）。根據(jù)GPT-4的技術(shù)報(bào)告，可以分析GPT-4的多模態(tài)數(shù)據(jù)集包括圖表推理、物理考試、圖像理解、論文總結(jié)、漫畫圖文等不同類型。目前GPT-4的多模態(tài)應(yīng)用還處于實(shí)驗(yàn)中，并未對(duì)公眾開放。

3.2 GPT-4訓(xùn)練流程分析

我們根據(jù)GPT-4的技術(shù)報(bào)告，初步分析其訓(xùn)練流程如下：

第一階段：構(gòu)建交叉注意力架構(gòu)預(yù)訓(xùn)練模型，收集數(shù)據(jù)并進(jìn)行有監(jiān)督策略精調(diào)

GPT-4模型是基于GPT-3.5構(gòu)建的，增加了視覺語言模型組件（在圖形Transformer階段完成的視覺預(yù)訓(xùn)練模型）。為了預(yù)訓(xùn)練模型在多模態(tài)領(lǐng)域進(jìn)行初步調(diào)優(yōu)，首先會(huì)在文本數(shù)據(jù)集和多模態(tài)數(shù)據(jù)集中抽取問題，由人類標(biāo)注員，給出高質(zhì)量答案，然后用這些人工標(biāo)注好的數(shù)據(jù)來精調(diào)GPT-4初始模型（獲得SFT模型，Supervised Fine-Tuning）。

此時(shí)的SFT模型在遵循指令/對(duì)話方面已經(jīng)優(yōu)于GPT-3.5，但對(duì)多模態(tài)的解答不一定符合人類偏好。

GPT-4訓(xùn)練過程（基于GPT-4技術(shù)報(bào)告繪制）

第二階段：訓(xùn)練獎(jiǎng)勵(lì)模型（RRM）和基于規(guī)則的獎(jiǎng)勵(lì)模型（RBRM）

這一階段包括基于規(guī)則的獎(jiǎng)勵(lì)模型（Rule-Based Reward Model，RBRM）和獎(jiǎng)勵(lì)模型（Reward Mode，RM）

首先基于安全規(guī)則設(shè)計(jì)基于規(guī)則的獎(jiǎng)勵(lì)模型并完成驗(yàn)證。這一模型與傳統(tǒng)NLP領(lǐng)域的規(guī)則模型設(shè)計(jì)方法一致。

然后在數(shù)據(jù)集中抽取問題，使用第一階段生成的模型，對(duì)于每個(gè)問題，生成多個(gè)不同的回答。人類標(biāo)注者對(duì)這些結(jié)果綜合考慮給出排名順序。（有點(diǎn)像互聯(lián)網(wǎng)企業(yè)的審圖師）

接下來，使用這個(gè)排序結(jié)果數(shù)據(jù)來訓(xùn)練GPT-4的獎(jiǎng)勵(lì)模型。對(duì)多個(gè)排序結(jié)果，兩兩組合，形成多個(gè)訓(xùn)練數(shù)據(jù)對(duì)。RM模型接受一個(gè)輸入，給出評(píng)價(jià)回答質(zhì)量的分?jǐn)?shù)。這樣，對(duì)于一對(duì)訓(xùn)練數(shù)據(jù)，調(diào)節(jié)參數(shù)使得高質(zhì)量回答的打分比低質(zhì)量的打分要高。這一過程類似于教練或老師輔導(dǎo)。

PPO算法示意（來源：澳大利亞Monash大學(xué)）

第三階段：采用PPO（Proximal Policy Optimization，近端策略優(yōu)化）強(qiáng)化學(xué)習(xí)來優(yōu)化策略

PPO的核心思路在于將Policy Gradient中On-policy的訓(xùn)練過程轉(zhuǎn)化為Off-policy，即將在線學(xué)習(xí)轉(zhuǎn)化為離線學(xué)習(xí)，這個(gè)轉(zhuǎn)化過程被稱之為Importance Sampling。這一階段利用第二階段訓(xùn)練好的獎(jiǎng)勵(lì)模型和基于規(guī)則的獎(jiǎng)勵(lì)模型，靠獎(jiǎng)勵(lì)打分來更新預(yù)訓(xùn)練模型參數(shù)。

在GPT-4數(shù)據(jù)集中抽取問題，使用PPO模型生成回答，并用上一階段訓(xùn)練好的RM+RBRM模型給出質(zhì)量分?jǐn)?shù)。把回報(bào)分?jǐn)?shù)依次傳遞，由此產(chǎn)生策略梯度，通過強(qiáng)化學(xué)習(xí)的方式以更新PPO模型參數(shù)。

如果不斷重復(fù)第二和第三階段，通過迭代，會(huì)訓(xùn)練出更高質(zhì)量的GPT-4模型。整個(gè)訓(xùn)練的核心在于高質(zhì)量數(shù)據(jù)集/Prompt的構(gòu)建、思維鏈的訓(xùn)練技術(shù)、大算力工程能力、早期訓(xùn)練空間的預(yù)測(cè)和優(yōu)選。數(shù)據(jù)量反而不那么重要，并不是富裕人家的孩子看的電視劇越多，就越能夠考上好大學(xué)。

3.3 模型訓(xùn)練參數(shù)空間的早期篩選

這一部分講的是降低訓(xùn)練量的技術(shù)，或者說是節(jié)約大量購買服務(wù)器的經(jīng)費(fèi)的技術(shù)。

據(jù)論文Scaling Laws for Neural Language Models (2020)，可以通過三個(gè)要素計(jì)算通過交叉熵?fù)p失預(yù)估GPT-4/GPT-3.5預(yù)訓(xùn)練模型性能。這三個(gè)要素是模型參數(shù)數(shù)量、訓(xùn)練期間計(jì)算量以及訓(xùn)練數(shù)據(jù)大小。這三個(gè)因素與損失之間存在冪律關(guān)系。這意味須將計(jì)算量、數(shù)據(jù)和參數(shù)量增加10倍才能將損失減少一個(gè)單位，增加100倍才能將損失減少兩個(gè)單位，依此類推。

為了提升GPT模型性能（主要是精度），比較經(jīng)濟(jì)的做法是在相對(duì)少量的數(shù)據(jù)上訓(xùn)練較大的模型，并在更多的訓(xùn)練步驟或數(shù)據(jù)上投入更多的計(jì)算，以最大限度地減少精度損失。因此“大型預(yù)訓(xùn)練模型+少量高質(zhì)量標(biāo)注”成為當(dāng)前語言模型領(lǐng)域的主流。

縮放定律圖示（來源：OpenAI）

對(duì)于計(jì)算量每增加10倍，該論文大約建議將參數(shù)數(shù)量增加5倍，將訓(xùn)練令牌的數(shù)量增加2倍，將串行訓(xùn)練步驟的數(shù)量增加1.2倍。這也可以說明，GPT-3等模型越來越大，是從綜合訓(xùn)練成本考慮的。

縮放定律不僅影響到模型的設(shè)計(jì)要素，也影響到基于算力的訓(xùn)練策略。OpenAI開發(fā)了針對(duì)性的算力基礎(chǔ)設(shè)施和優(yōu)化方法，在多個(gè)尺度預(yù)測(cè)GPT-4模型的訓(xùn)練效果，從而能在只使用大概千分之一的算力消耗時(shí)提前探索GPT-4訓(xùn)練的解空間，而無需完全遍歷所有可能的訓(xùn)練參數(shù)設(shè)置。換句話說，投資人也可以提前預(yù)知自己投的創(chuàng)企大概能訓(xùn)練出多高精度的模型。

縮放定律可以量化為公式L(C) = aC^b+ c，從而只要在每個(gè)參數(shù)模型的早期使用小一些的算力就可以擬合該曲線，提前估算在該訓(xùn)練參數(shù)集下能達(dá)到的模型精度。這一方法大大加速了GPT-4模型訓(xùn)練調(diào)優(yōu)的進(jìn)程。

較小算力模型準(zhǔn)確的預(yù)測(cè)了GPT-4的訓(xùn)練精度（來源：OpenAI）

4 GPT-4的算力基座

由GPT-4/ChatGPT及其下游需求，帶動(dòng)了大量的模型設(shè)計(jì)與產(chǎn)業(yè)應(yīng)用需求，帶動(dòng)了從服務(wù)器集群到大算力芯片的海量計(jì)算需求。這一需求業(yè)導(dǎo)致了A100 GPU的價(jià)格在近幾個(gè)月內(nèi)暴漲。那么，在多模態(tài)大模型逐漸火熱之后，GPU會(huì)是唯一的算力選擇嗎？GPU會(huì)不會(huì)導(dǎo)致模型企業(yè)同質(zhì)化競(jìng)爭(zhēng)的加??？

根據(jù)IDC預(yù)計(jì)，到2026年AI推理的負(fù)載比例將進(jìn)一步提升至62.2%，特別是大模型將成為AI開發(fā)的新范式。

對(duì)于GPT-4等大模型設(shè)計(jì)或應(yīng)用企業(yè)，算力的需求體現(xiàn)在如下三個(gè)細(xì)分階段。

1）GPT-4預(yù)訓(xùn)練與應(yīng)用微調(diào)階段。這一階段從無到有建立預(yù)訓(xùn)練模型，通過大量通用數(shù)據(jù)訓(xùn)練和驗(yàn)證預(yù)訓(xùn)練模型。（形成模型的“通識(shí)”）然后針對(duì)具體的商用或應(yīng)用場(chǎng)景的特定數(shù)據(jù)，對(duì)預(yù)訓(xùn)練進(jìn)行針對(duì)性的微調(diào)，加強(qiáng)對(duì)場(chǎng)景的應(yīng)答準(zhǔn)確度。在這一階段，一般需要超算級(jí)別或數(shù)十臺(tái)服務(wù)器來進(jìn)行一個(gè)大模型的訓(xùn)練計(jì)算，計(jì)算以大量矩陣計(jì)算和求解為主。這一階段的算力可通過上述的縮放定律來進(jìn)行預(yù)測(cè)和縮減不必要的訓(xùn)練參數(shù)集合所需的算力（非必要參數(shù)集分支大概可縮減到千分之一）。

2）GPT-4推理與部署階段。根據(jù)場(chǎng)景微調(diào)后的大模型，就可部署到實(shí)際生產(chǎn)環(huán)境中應(yīng)用。相對(duì)訓(xùn)練來說，部署要求的算力較低，但是基數(shù)很大。對(duì)于大量在線交互來說，部署階段的服務(wù)器/芯片成本要遠(yuǎn)遠(yuǎn)超過訓(xùn)練階段。在這一階段，每臺(tái)AI服務(wù)器可以部署一個(gè)GPT-4模型，集群上會(huì)有大量服務(wù)器進(jìn)行并行的網(wǎng)絡(luò)服務(wù)，計(jì)算以大量矩陣計(jì)算和存儲(chǔ)調(diào)度為主。同時(shí)，在這些場(chǎng)景下，特別是端側(cè)應(yīng)用場(chǎng)景，也會(huì)有硬件性價(jià)比和反應(yīng)延遲的特定要求，目前的GPU就不一定適合。

3）GPT-4模型迭代的微調(diào)階段。每使用一段時(shí)間，就會(huì)根據(jù)使用者或者客戶反饋，對(duì)模型進(jìn)行調(diào)整，以提高客戶滿意度，特別是提升模型的安全度以確保合規(guī)。這個(gè)過程就是模型迭代的過程，一般相當(dāng)于小規(guī)模的訓(xùn)練，訓(xùn)練所用的數(shù)據(jù)規(guī)模不大，計(jì)算以大量矩陣計(jì)算和求解為主。

04 .

GPT-4的算力基座

4.1 GPT-4計(jì)算服務(wù)器架構(gòu)

計(jì)算服務(wù)器架構(gòu)對(duì)比

針對(duì)GPT-4這類大模型的計(jì)算架構(gòu)，按照計(jì)算芯片的組合方式，一般可以分為：“CPU+GPGPU”，“CPU+DSA”，和“CPU+DSA+GPGPU”三種類型。這三種類型目前都已在云計(jì)算場(chǎng)景廣泛應(yīng)用和部署。

DSA即領(lǐng)域?qū)Ｓ眉铀倨?/span>，是用于一些特定場(chǎng)景或算法族計(jì)算的芯片級(jí)加速。最早的GPU也屬于DSA，也就是圖形加速的DSA。隨著GPU逐漸演化，將非常小的CPU核心加入GPU形成GPGPU架構(gòu)后，才具備了通用化的計(jì)算能力。

1）CPU+GPGPU是較早且部署眾多的一種。由于這種架構(gòu)的計(jì)算靈活度高，也可用于模型訓(xùn)練和非AI類計(jì)算。適合任務(wù)種類繁多且差異化大的云計(jì)算場(chǎng)景。

2）CPU+DSA是目前Google云計(jì)算（GCP）應(yīng)用較多的方式。例如Google去年發(fā)布的Pathways計(jì)算系統(tǒng)（包含6144塊TPU）就是這類架構(gòu)的典型代表。這類架構(gòu)計(jì)算靈活性稍低一點(diǎn)，但是計(jì)算性能和成本都非常明顯優(yōu)于CPU+GPGPU模式，非常用于GPT-4或其他算法部署場(chǎng)景。例如早些年的AlphaGo的性能突破很大程度上來自于Google自研的TPU。當(dāng)時(shí)如果用GPU，估計(jì)超過人類棋手的集群成本恐是當(dāng)年的Google也難以承受的。

Google Pathways “CPU+DSA”訓(xùn)練集群基礎(chǔ)架構(gòu)（來源：Google）

3）CPU+DSA+GPGPU介于前兩者之間，充分提高了靈活性又明顯降低了計(jì)算成本。這類架構(gòu)需要算法設(shè)計(jì)/部署人員有豐富的異構(gòu)架構(gòu)部署經(jīng)驗(yàn)。

計(jì)算卡間的高速互連對(duì)GPT-4計(jì)算的影響排在單卡算力之后。對(duì)于多數(shù)GPU來說，由于一般需要多卡才能放下一個(gè)模型，因此整體的計(jì)算效率受限于互連帶寬和單卡有效算力密度。（算力密度大可以減少互連交互的總數(shù)據(jù)量）

AI服務(wù)器內(nèi)部的卡間互連

以英偉達(dá)為例，HGX平臺(tái)上有六個(gè)NVSwitch。每個(gè)NVSwitch連接2塊GPU，總共有12個(gè)最短數(shù)據(jù)通道直連，形成接近立方體式的數(shù)據(jù)交互網(wǎng)。這里之所以說接近，是因?yàn)?123和4567平面之間的連接還不是兩兩互連，這一結(jié)構(gòu)會(huì)限制GPU所能運(yùn)行的模型的規(guī)模效率。

計(jì)算服務(wù)器之間的高速互連通過Infiniband實(shí)現(xiàn)。每個(gè)NVIDIA A100/H100可以訪問服務(wù)器Infiniband結(jié)構(gòu)，通過Infiniband提升服務(wù)器間的數(shù)據(jù)交互帶寬，而大帶寬的Infiniband一般通過光纖連接（使用SerDes技術(shù)）來減少損耗。Infiniband網(wǎng)絡(luò)基于“以應(yīng)用程序?yàn)橹行摹钡挠^點(diǎn)，目標(biāo)是讓應(yīng)用程序訪問其他應(yīng)用程序以及存儲(chǔ)盡可能的簡(jiǎn)單、高效和直接，避免網(wǎng)絡(luò)分層帶來的延遲。這種結(jié)構(gòu)大大提高了GPT-4訓(xùn)練的速度。

4.2 GPT-4計(jì)算相關(guān)芯片

對(duì)于GPT-4這類大模型來說，其部署需要大量的大算力計(jì)算、存儲(chǔ)和數(shù)據(jù)交互芯片，包括：

AI計(jì)算：算力>100TFLOPS的GPGPU或大算力AI芯片

CPU：核數(shù)>8的CPU

存儲(chǔ)：內(nèi)存/GDDR/HBM/NVMe

數(shù)據(jù)交互：Infiniband卡

在Transformer技術(shù)興起之后，傳統(tǒng)CUDA核心的算力支持能力已表現(xiàn)出劣勢(shì)，英偉達(dá)便在其GPU中添加Tensor Core這類DSA單元，以適應(yīng)算力需求的變化?？紤]到GPU這類通用架構(gòu)芯片在計(jì)算效率和算力上已經(jīng)暫時(shí)落后于GPT-4/ChatGPT這類大模型的發(fā)展速度，從芯片/半導(dǎo)體的歷史發(fā)展規(guī)律看，預(yù)計(jì)近幾年可能會(huì)有新的專用架構(gòu)大發(fā)展來填補(bǔ)這一需求。這類新架構(gòu)也許是針對(duì)大模型的DSA，或者是更接近于DSA的GPGPU。

CPU、GPU和存算一體芯片的架構(gòu)對(duì)比

從目前GPT-4的部署需求來看，GPT-4大模型具有數(shù)據(jù)量大、數(shù)據(jù)帶寬要求高、算力要求高的計(jì)算特點(diǎn)，且算法相對(duì)單一。如果要提高計(jì)算效率和性價(jià)比，就應(yīng)該像超算那樣選擇更高計(jì)算密度的算力芯片。從這個(gè)角度上看，具備存算一體結(jié)構(gòu)的DSA可以很好的滿足這些要求，并且具備比GPGPU更高的計(jì)算性能，未來很有可能與CPU或GPU組合，形成GPT-4這類算法的主要部署芯片。

在GPT-4這類大模型訓(xùn)練中，一般需要使用Infiniband進(jìn)行大算力芯片間的協(xié)同工作，整合海量芯片的算力。Infiniband摒棄了傳統(tǒng)網(wǎng)絡(luò)和應(yīng)用程序之間消息傳遞的復(fù)雜結(jié)構(gòu)，使應(yīng)用程序之間直接進(jìn)行通信，繞過了操作系統(tǒng)，大大提高了效率。

05 .

GPT-4的局限與未來改進(jìn)方向

5.1 GPT-4局限

盡管GPT-4表現(xiàn)出出色的上下文對(duì)話能力甚至編程能力，以及能看懂圖梗和分析數(shù)據(jù)圖。我們也要看到，GPT-4技術(shù)仍然有一些局限性，還在不斷的進(jìn)步。

1）GPT-4在其未經(jīng)大量語料訓(xùn)練的某些領(lǐng)域缺乏“人類常識(shí)”和引申能力”。GPT-4在很多領(lǐng)域可以“創(chuàng)造答案”，但當(dāng)用戶尋求正確答案時(shí)，GPT-4也有可能給出有誤導(dǎo)的回答。大預(yù)言模型的安全性問題仍是橫亙?cè)谄浯笠?guī)模商用上的拉路虎。如果遇到關(guān)系重大利益的抉擇時(shí)，我們是該相信GPT-4的結(jié)果還是不相信呢？

大語言模型的SWOT分析（來源：互聯(lián)網(wǎng)）

2）GPT-4需要非常大量的算力（芯片）來支持其訓(xùn)練和部署。拋開需要大量語料數(shù)據(jù)訓(xùn)練模型不說，在目前，GPT-4在應(yīng)用時(shí)仍然需要大算力的服務(wù)器支持，而這些服務(wù)器的成本是普通企業(yè)在大流量服務(wù)時(shí)無法承受。對(duì)于私有化部署來說，還需等待更輕量型的模型或更高性價(jià)比的算力平臺(tái)。

3）GPT-4還沒法在線的把新知識(shí)納入其中，而出現(xiàn)一些新知識(shí)就去重新預(yù)訓(xùn)練GPT模型也是不現(xiàn)實(shí)的，無論是訓(xùn)練時(shí)間或訓(xùn)練成本，都是普通訓(xùn)練者難以接受的。

如果對(duì)于新知識(shí)采取在線訓(xùn)練的模式，看上去可行且語料成本相對(duì)較低，但是很容易由于新數(shù)據(jù)的引入而導(dǎo)致對(duì)原有知識(shí)的災(zāi)難性遺忘的問題。另一方面，缺乏檢查的新的不良知識(shí)也可能導(dǎo)致模型本身的安全性問題。特別是GPT-4可能會(huì)繼承從新數(shù)據(jù)中學(xué)到的偏見和不平等性。如果數(shù)據(jù)集中存在種族、性別、地理位置等方面的偏見，GPT-4也可能會(huì)在生成文本時(shí)出現(xiàn)類似的偏見。

4）GPT-4仍然是黑盒模型。目前還未能對(duì)GPT-4的內(nèi)在算法邏輯進(jìn)行分解，因此并不能保證GPT-4不會(huì)產(chǎn)生攻擊甚至傷害用戶的表述。OpenAI提供的文檔報(bào)告稱，GPT-4-launch的錯(cuò)誤行為率為0.02%，遠(yuǎn)低于GPT-3.5的0.07%和GPT-3的0.11%1。這意味著GPT-4-launch生成的文本在10000次完成中只有2次違反OpenAI的內(nèi)容政策或用戶偏好。但即便這2次違反依然可能導(dǎo)致OpenAI受到嚴(yán)重的法律訴訟。

5）GPT-4仍存在社會(huì)和道德風(fēng)險(xiǎn)。由于GPT-4這類大型語言模型仍然存在根本性的黑盒特征。GPT-4仍然可以生成有偏見的、虛假的和仇恨的文本；仍然可以被黑客攻擊（例如Prompt越獄）以繞過它的安全防護(hù)墻。盡管OpenAI提出了多項(xiàng)措施來減輕其模型的風(fēng)險(xiǎn)和挑戰(zhàn)，但GPT-4仍然可能被濫用于創(chuàng)建假新聞、宣傳、垃圾郵件或有害內(nèi)容，還可能產(chǎn)生可能誤導(dǎo)或傷害用戶的事實(shí)錯(cuò)誤或偏見。OpenAI的研究表明，GPT-4可以在許多領(lǐng)域與人類宣傳員相媲美。

6）GPT-4仍存在幻覺和推理錯(cuò)誤。盡管OpenAI聲稱GPT-4相對(duì)于以前的模型可以顯著減少幻覺（在其內(nèi)部評(píng)估中得分比GPT-3.5高40%）。GPT-4仍然可能會(huì)產(chǎn)生有害的建議（盡管GPT-4更有可能拒絕回答）、錯(cuò)誤代碼或不準(zhǔn)確的信息，因此，GPT-4暫不應(yīng)該用于錯(cuò)誤成本高的區(qū)域（比如醫(yī)學(xué)手術(shù)？）。

7）GPT-4存在泄露隱私可能。GPT-4可從各種內(nèi)部許可和公開可用的數(shù)據(jù)源中學(xué)習(xí)，其中可能包括大量公開有效的個(gè)人信息。包括互聯(lián)網(wǎng)上學(xué)習(xí)到有重要影響力人物（例如名人和公眾人物）的大量隱私信息。GPT-4還可以聚合不同信息，將大量隱含信息關(guān)聯(lián)挖掘出來形成有效的隱私信息。

5.2 未來改進(jìn)方向

5.2.1 減少人類反饋的RLAIF

2020年底，OpenAI前研究副總裁Dario Amodei帶著10名員工創(chuàng)辦了一個(gè)人工智能公司Anthropic。Anthropic的創(chuàng)始團(tuán)隊(duì)成員，大多為OpenAI的早期及核心員工，并在2022年12月，發(fā)表論文《Constitutional AI: Harmlessness from AI Feedback》介紹人工智能模型Claude。

CAI模型訓(xùn)練過程（來源：Anthropic）

Claude和GPT-4都依賴于強(qiáng)化學(xué)習(xí)（RL）來訓(xùn)練偏好（Preference）模型。CAI（Constitutional AI）也是建立在RLHF的基礎(chǔ)之上，不同之處在于，Claude的CAI的排序過程使用模型（而非人類）對(duì)所有生成的輸出結(jié)果提供一個(gè)初始排序結(jié)果。這種模式的好處是節(jié)約了大量人工標(biāo)注的時(shí)間和資源，可以加速大模型的訓(xùn)練進(jìn)程，并降低成本。

CAI用人工智能反饋來代替人類對(duì)表達(dá)無害性的偏好，即RLAIF，人工智能根據(jù)一套法規(guī)（Constitution）原則來評(píng)價(jià)回復(fù)內(nèi)容。

CAI與RLHF技術(shù)對(duì)比（來源：Anthropic）

5.2.2 數(shù)理能力的增強(qiáng)

GPT-4雖然已經(jīng)具備解物理題的能力，但畢竟不是專門的解題算法，一些復(fù)雜的數(shù)理問題對(duì)話中仍會(huì)出現(xiàn)一本正經(jīng)胡說八道的情況。

計(jì)算機(jī)學(xué)家Stephen Wolfram為這一問題提出了解決方案。Stephen Wolfram創(chuàng)造了的Wolfram語言和計(jì)算知識(shí)搜索引擎Wolfram|Alpha，其后臺(tái)通過Mathematica實(shí)現(xiàn)。

ChatGPT與Wolfram|Alpha結(jié)合處理梳理問題（來源：Wolfram）

目前Woflframe已經(jīng)可以通過ChatGPT調(diào)用（通過插件），未來也會(huì)實(shí)現(xiàn)GPT-4的集成。在這一結(jié)合體系中，GPT-4可以像人類使用Wolfram|Alpha一樣，與Wolfram|Alpha“對(duì)話”，Wolfram|Alpha則會(huì)用其符號(hào)翻譯能力將從GPT-4獲得的自然語言表達(dá)“翻譯”為對(duì)應(yīng)的符號(hào)化計(jì)算語言。在過去，學(xué)術(shù)界在GPT-4使用的這類“統(tǒng)計(jì)方法”和Wolfram|Alpha的“符號(hào)方法”上一直存在路線分歧。但如今GPT-4和Wolfram|Alpha的互補(bǔ)，給NLP領(lǐng)域提供了更上一層樓的可能。

ChatGPT調(diào)用Wolfram（來源：Wolfram）

GPT-4不必生成這樣的計(jì)算代碼，只需生成常規(guī)自然語言，然后使用Wolfram|Alpha翻譯成精確的Wolfram Language，再由底層的Mathematica進(jìn)行計(jì)算。

5.2.3 GPT-4的本地化與小型化

雖然GPT-4很強(qiáng)大，但其模型大小和使用成本也讓很多人望而卻步。

有三類模型壓縮（model compression）技術(shù)可以降低模型的大小和成本。

第一種方法是量化（quantization），即降低單個(gè)權(quán)重的數(shù)值表示的精度。比如Transformer從FP32降到INT8對(duì)其精度影響不大，但是會(huì)顯著提升計(jì)算效率。筆者團(tuán)隊(duì)已研發(fā)出INT4量級(jí)的Transformer高精度量化算法，無需再次訓(xùn)練或更改模型，即可部署到GPT-4算力平臺(tái)上，大大提升計(jì)算效率并降低成本。

第二種模型壓縮方法是剪枝（pruning），即刪除GPT-4的網(wǎng)絡(luò)元素，包括從單個(gè)權(quán)重（非結(jié)構(gòu)化剪枝）到更高粒度的組件如權(quán)重矩陣的通道。這種方法在視覺和較小規(guī)模的語言模型中有效，也是很多框架（Framework）上自帶的功能。

第三種模型壓縮方法是稀疏化。例如奧地利科學(xué)技術(shù)研究所（ISTA）提出的SparseGPT可以將GPT系列模型單次剪枝到50%的稀疏性，而無需任何重新訓(xùn)練。當(dāng)然這種稀疏結(jié)構(gòu)目前還僅僅是基于GPU架構(gòu)實(shí)現(xiàn)的，在其他硬件平臺(tái)上并不兼容，而且GPT-4的稀疏化是否在綜合成本上優(yōu)于壓縮還有待觀察。

SparseGPT壓縮流程（來源：ISTA）

06 .

GPT-4的產(chǎn)業(yè)未來與投資機(jī)會(huì)

6.1 大模型的技術(shù)棧

GPT-4這類大模型的用戶量巨大，算力需求巨大，連接的設(shè)備和軟件眾多。其技術(shù)棧具有更多組件，可包括用于容器化、性能監(jiān)控、商業(yè)智能、事件處理、云服務(wù)、微服務(wù)和分析的工具。

GPT-4/ChatGPT等大模型的技術(shù)?？梢苑譃?層：

1）應(yīng)用層：將生成的AI模型（可通過接口）集成到面向用戶的應(yīng)用程序，運(yùn)行私有模型或通過第三方接口運(yùn)行模型。這一層的應(yīng)用企業(yè)最多。大量企業(yè)無需研發(fā)自有的大模型，即可使用GPT-4帶來的人工智能協(xié)作能力和生成能力，形成各類應(yīng)用。

2）接口層：包括各種調(diào)用API和數(shù)據(jù)中心調(diào)用工具，同時(shí)提供對(duì)應(yīng)的提示工程接口和模型精調(diào)接口。接口層將應(yīng)用層和模型層銜接，方便應(yīng)用層調(diào)用，使得開發(fā)者和用戶能夠以編程方式與模型進(jìn)行交互。這可以簡(jiǎn)化GPT-4在實(shí)際應(yīng)用中的部署和調(diào)用，從而降低使用門檻。

3）模型層：包括各類開源或非開源模型，以及各種模型的共享平臺(tái)。這一層提供了不同的模型數(shù)據(jù)和功能，通過接口層為應(yīng)用層提供大模型的功能支持。

4）框架層：提供訓(xùn)練或云部署的深度學(xué)習(xí)框架和中間件等，包括PyTorch、TensorFlow等知名深度學(xué)習(xí)框架和中間件。

5）計(jì)算層：為模型層提供模型計(jì)算和調(diào)度的各種算力支持，為訓(xùn)練AI模型運(yùn)行訓(xùn)練和運(yùn)行推理任務(wù)提供基礎(chǔ)設(shè)施。計(jì)算層包括了各種云計(jì)算平臺(tái)和計(jì)算芯片。在這一層，AI芯片會(huì)是核心瓶頸。

GPT-4等大模型的技術(shù)棧

目前GPT-4的幾乎所有內(nèi)容都通過云計(jì)算GPU或TPU來運(yùn)行，使用者包括運(yùn)行訓(xùn)練工作的模型提供商/研究實(shí)驗(yàn)室、進(jìn)行模型部署或精調(diào)的應(yīng)用企業(yè)。在GPU替代CPU成為主要的AI算力芯片之后，AI界10多年來再一次受到大規(guī)模計(jì)算能力的限制。

截至目前，GPT-4這個(gè)領(lǐng)域目前還未看到非常明確的技術(shù)或產(chǎn)品護(hù)城河。由于使用相似的模型，應(yīng)用層企業(yè)在早期可能會(huì)缺乏很強(qiáng)的產(chǎn)品差異化；由于大部分云服務(wù)提供方目前只能使用同一FAB生產(chǎn)的GPU作為主力算力芯片，普通云提供商實(shí)質(zhì)上也難以提供成本或性價(jià)比的差異化。

GPT-4等大模型目前以同質(zhì)化的模式進(jìn)行構(gòu)建，具備統(tǒng)一的“圖像+自然語言”接口，因此短期內(nèi)，除了模型參數(shù)本身不易訓(xùn)練好的壁壘外，暫時(shí)還未明確通過軟件生態(tài)或數(shù)據(jù)管道建立自家獨(dú)有競(jìng)爭(zhēng)壁壘的路線。

就目前來說，我們還無法判斷GPT-4這類多模態(tài)大模型領(lǐng)域是否會(huì)像互聯(lián)網(wǎng)那樣出現(xiàn)少數(shù)幾家獨(dú)大的情況。也許大模型的時(shí)代會(huì)是一個(gè)無中心的狀態(tài)，每個(gè)團(tuán)隊(duì)都有可能成為英雄。

6.2 GPT-4的產(chǎn)業(yè)應(yīng)用

AIGC即利用人工智能技術(shù)來生成內(nèi)容。與此前Web1.0、Web2.0時(shí)代的UGC（用戶生產(chǎn)內(nèi)容）和PGC（專業(yè)生產(chǎn)內(nèi)容）相比，代表人工智能構(gòu)思內(nèi)容的AIGC，是新一輪內(nèi)容生產(chǎn)方式變革，而且AIGC內(nèi)容在Web3.0時(shí)代也將出現(xiàn)指數(shù)級(jí)增長(zhǎng)。

GPT-4模型的出現(xiàn)對(duì)于圖像/文字/語音多模態(tài)的AIGC應(yīng)用具有重要意義，會(huì)對(duì)AI產(chǎn)業(yè)上下游產(chǎn)生重大影響。

GPT-4的應(yīng)用領(lǐng)域（修改自O(shè)penAI）

GPT-4對(duì)依賴人類智能處理和生成的各個(gè)領(lǐng)域和行業(yè)具有許多潛在的應(yīng)用和影響。與其考慮哪些細(xì)分領(lǐng)域可以使用GPT-4這類技術(shù)輔助人工，不如考慮哪些領(lǐng)域還不能用GPT-4輔助，后者的名單或許更短一些。

可以快速使用GPT-4的一些行業(yè)包括（可視為會(huì)快速變革的行業(yè)的預(yù)測(cè)）：

1）教育行業(yè)：GPT-4可以作為想要學(xué)習(xí)新技能或?qū)W科的學(xué)生的輔導(dǎo)員或指導(dǎo)者。GPT-4還可以根據(jù)學(xué)生的學(xué)習(xí)目標(biāo)和進(jìn)度，為他們提供個(gè)性化的反饋和指導(dǎo)。

2）文娛行業(yè)：GPT-4作為講故事的人或作曲家，為觀眾和平臺(tái)輸出原創(chuàng)且引人入勝的內(nèi)容。GPT-4還可以用作游戲設(shè)計(jì)師或角色，為游戲玩家創(chuàng)造身臨其境的互動(dòng)體驗(yàn)。

3）商業(yè)：GPT-4可用作營(yíng)銷人員或銷售人員，為顧客和客戶創(chuàng)建有效且有說服力的話術(shù)。GPT-4還可以用作客戶服務(wù)代理或聊天機(jī)器人，以快速準(zhǔn)確地響應(yīng)查詢和投訴。

4）新聞：GPT-4可用作記者或編輯，以生成有關(guān)各種主題和事件的高質(zhì)量和真實(shí)的新聞文章。GPT-4還可以用作新聞檢查器或驗(yàn)證器，用于檢測(cè)和糾正錯(cuò)誤信息和假新聞。

5）醫(yī)療大健康：醫(yī)生或護(hù)士可以使用GPT-4作為助手診斷和治療患有各種疾病的患者。GPT-4也可以用作治療師或健康顧問，提供心理健康支持和建議。

6）法律：GPT-4可以作為律師或法官助理起草和審查法律文件和合同。

7）生命科學(xué)：GPT-4及其模型的生物分支可用于從用于臨床試驗(yàn)的合成數(shù)據(jù)創(chuàng)建到基于蛋白質(zhì)折疊模型的生成式蛋白質(zhì)設(shè)計(jì)以加速藥物發(fā)現(xiàn)，再到學(xué)術(shù)論文的研究總結(jié)。雖然采用還處于早期階段，但加速藥物發(fā)現(xiàn)和批準(zhǔn)、改善患者療效和節(jié)省醫(yī)療成本的潛力是巨大的。

8）供應(yīng)鏈和物流：借助GPT-4的思維鏈能力來進(jìn)行自動(dòng)化產(chǎn)品開發(fā)，包括設(shè)計(jì)和組件替換，從而以更低的成本生產(chǎn)出具有更高性能和可持續(xù)性的新產(chǎn)品。GPT-4還可支持文檔自動(dòng)化和合同生成，以更好的簡(jiǎn)化工作流程。

隨著算法技術(shù)和算力技術(shù)的不斷進(jìn)步，GPT-4也會(huì)進(jìn)一步走向更先進(jìn)功能更強(qiáng)的版本，在越來越多的領(lǐng)域進(jìn)行應(yīng)用，為人類生成更多更美好的對(duì)話和內(nèi)容。

6.3 GPT-4對(duì)我們和未來的影響

GPT-4這類多模態(tài)大模型技術(shù)會(huì)對(duì)我們每個(gè)人的生活和工作產(chǎn)生一系列的影響。例如：

1）GPT-4會(huì)極大的影響宣傳和社交。以后GPT-4這類技術(shù)會(huì)在互聯(lián)網(wǎng)上橫行，我們會(huì)很難分辨到底是“大眾的聲音”還是“中心服務(wù)器的聲音”，大量沒有主見的人可能會(huì)盲從于GPT-4這類技術(shù)生成的觀點(diǎn)，人類會(huì)變成機(jī)器的復(fù)讀機(jī)。同時(shí)GPT-4工具會(huì)大量滲透入普通人的社交，“唯有套路得人心”的場(chǎng)景會(huì)遍地開花。

2）AI大量替代低端重復(fù)性溝通和多模態(tài)工作。GPT-4會(huì)與機(jī)器人技術(shù)結(jié)合，從云滲透到端，進(jìn)入每個(gè)人的日常生活。操作系統(tǒng)和辦公軟件的交互UI會(huì)大量被大模型主宰化。也許開始會(huì)有很多人因?yàn)锳I技術(shù)的替代而失業(yè)，逐漸更多的人借助GPT-4這類技術(shù)獲得更高的效率并成為自然語言程序員，人類開始剝削機(jī)器，創(chuàng)造力和自然情感成為人類能堅(jiān)守的寶貴特質(zhì)。

3）各種考核將從知識(shí)型考核轉(zhuǎn)向綜合能力考核。知道多少或者會(huì)什么外語已經(jīng)不重要，工作經(jīng)驗(yàn)或技術(shù)經(jīng)驗(yàn)也只是看是否擁有更先進(jìn)的GPT模型或算力。一些曾經(jīng)的熱門專業(yè)可能會(huì)逐漸凋落。人類下一代從人類“內(nèi)卷”過渡到“人機(jī)互卷”，高層次能力競(jìng)爭(zhēng)會(huì)更加激烈。

GPT-4這類多模態(tài)大模型到底會(huì)給我們每個(gè)人帶來什么樣的具體影響，也許是現(xiàn)在的我們還不能完全想象的。但這影響一定是巨大和深遠(yuǎn)的。畢竟“圣杯”的語義不僅僅代表貴重，也代表了神奇和不可思議，甚至是獨(dú)一無二。

上一篇：阿里集團(tuán)組織架構(gòu)大調(diào)整，會(huì)掀起新的財(cái)富狂潮嗎？

下一篇：AIGC成為新技術(shù)引擎？美圖2022年報(bào)解讀

香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放