午夜视频在线网站,午夜欧美日韩在线视频播放,视频在线a

OpenAI草莓模型深夜突襲！理化生達(dá)博士生水平，比GPT-4o強(qiáng)多了，ChatGPT可用

智東西

2024-09-13 09:15:11

作者 | 香草

編輯 | 李水青

智東西9月13日?qǐng)?bào)道，今日凌晨，OpenAI突然發(fā)布傳說中“草莓”模型的部分預(yù)覽版——OpenAI o1預(yù)覽版。這是一系列全新AI模型，能推理復(fù)雜的任務(wù)，解決比以前科學(xué)、編程、數(shù)學(xué)模型更難的問題。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲OpenAI發(fā)布o(jì)1模型

OpenAI o1是全新系列AI模型的第一款。與以往模型不同的是，它擁有進(jìn)化的推理能力，會(huì)在回答前進(jìn)行縝密思考，生成一個(gè)長(zhǎng)長(zhǎng)的內(nèi)部思維鏈，在競(jìng)爭(zhēng)性編程問題上排名第89位，在美國(guó)數(shù)學(xué)奧林匹克預(yù)選資格賽中排名前500，在物理、生物、化學(xué)問題的基準(zhǔn)測(cè)試中準(zhǔn)確度超過了人類博士水平！

新發(fā)布的另一款o1 mini是一款更快、更小的模型，使用與o1類似的框架進(jìn)行訓(xùn)練。o1 mini擅長(zhǎng)理工學(xué)科，尤其是數(shù)學(xué)和編程，其成本比o1預(yù)覽版便宜80%。

這兩款模型被OpenAI視為復(fù)雜推理任務(wù)的重大進(jìn)步，因此被命名為o1，重置計(jì)數(shù)器，而非作為GPT系列的延續(xù)。

不過，推理增強(qiáng)版的o1模型，還是在9.9和9.11比大小這種“高階問題”上慘敗。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲o1模型回答“比大小”問題

已經(jīng)離開OpenAI創(chuàng)業(yè)的OpenAI創(chuàng)始成員、前特斯拉AI高級(jí)總監(jiān)Andrej Karpathy今早發(fā)文吐槽：“o1-mini一直拒絕為我解決黎曼假設(shè)。模型懶惰仍然是一個(gè)主要的問題?”

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲Andrej Karpathy吐槽o1 mini“懶惰”

OpenAI已對(duì)o1預(yù)覽版進(jìn)行嚴(yán)格測(cè)試及評(píng)估，確保該模型可以安全發(fā)布。ChatGPT的Plus和Team用戶即日可選用兩款新模型，Tier 5級(jí)開發(fā)者亦率先獲得新模型的API訪問權(quán)限。

OpenAI還公布了o1模型背后的核心團(tuán)隊(duì)成員，其中基礎(chǔ)貢獻(xiàn)成員21名，包括已經(jīng)離職創(chuàng)業(yè)的前OpenAI首席科學(xué)家Ilya Sutskever，團(tuán)隊(duì)負(fù)責(zé)人有7名。

一、MMLU媲美人類專家，編程能力8倍殺GPT-4o

與此前曝料的一樣，OpenAI o1被訓(xùn)練成為會(huì)花更多時(shí)間思考問題，而后再作出反應(yīng)的模型。它在回答之前會(huì)先思考，產(chǎn)生一個(gè)很長(zhǎng)的內(nèi)部思路鏈，并且能像人類一樣完善自己的思維過程，不斷嘗試新的策略并認(rèn)識(shí)到自己的錯(cuò)誤。

作為早期預(yù)覽模型，OpenAI o1目前只支持文本對(duì)話，不具備瀏覽網(wǎng)頁(yè)獲取信息、上傳文件和圖片等多模態(tài)能力。

性能方面，OpenAI o1在物理、化學(xué)和生物學(xué)等基準(zhǔn)任務(wù)上的表現(xiàn)與博士生相當(dāng)，并且在數(shù)學(xué)和編程方面表現(xiàn)出色。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲OpenAI o1在數(shù)學(xué)、編程上的測(cè)評(píng)基準(zhǔn)

在國(guó)際數(shù)學(xué)奧林匹克（IMO）資格考試中，OpenAI的上一代模型GPT-4o正確率為13%，而OpenAI o1則達(dá)到83%。在編程比賽Codeforces中，OpenAI o1的分?jǐn)?shù)為89，而GPT-4o僅有11。即使是預(yù)覽版的o1-preview模型，性能也比GPT-4o要好數(shù)倍。

在大多數(shù)基準(zhǔn)測(cè)試中，o1的表現(xiàn)都比GPT-4o要好得多，覆蓋57個(gè)MMLU子類別中的54個(gè)。在啟用視覺感知功能后，o1在MMLU上的得分為78.2%，成為第一個(gè)與人類專家相媲美的模型。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲o1預(yù)覽版與GPT-4o性能對(duì)比

以下是OpenAI o1預(yù)覽版幾個(gè)示例：

1、解決一個(gè)復(fù)雜的邏輯難題

輸入一個(gè)復(fù)雜的年齡謎題：當(dāng)公主的年齡是王子的兩倍時(shí)，當(dāng)公主的年齡是他們現(xiàn)在年齡總和的一半時(shí)，公主就和王子一樣老了。問王子和公主的年齡是多大？給出這個(gè)問題的所有解決方案。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

模型思考了20多秒后開始作答。其回答過程的邏輯非常連貫。首先是確定年齡方程，將給定語(yǔ)句轉(zhuǎn)化成數(shù)學(xué)方程，找到滿足這些方程的所有可能解。然后開始一步一步分析問題：

第一步定義變量，用P代表prince（王子），用Q代表princess（公主）；第二步理解問題中的兩個(gè)條件；第三部將條件轉(zhuǎn)化為方程；第四步解方程；第五步用這些值驗(yàn)證所有條件；第六步給出所有可能的解法。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

最后得出結(jié)論：

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

2、翻譯有錯(cuò)誤的句子

添加額外不必要的輔音會(huì)影響韓語(yǔ)閱讀。母語(yǔ)使用者讀起來會(huì)感覺不自然，他們會(huì)在看到這類句子時(shí)自動(dòng)更改并理解文本。但這對(duì)于模型來說是個(gè)有難度的挑戰(zhàn)。

輸入一個(gè)嚴(yán)重?fù)p壞的韓語(yǔ)提示詞后，OpenAI o1首先意識(shí)到輸入文本存在亂碼或未對(duì)齊的韓語(yǔ)字符，詢問用戶是否愿意檢查輸入錯(cuò)誤。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

o1模型會(huì)首先理解底層結(jié)構(gòu)，經(jīng)過大約10秒的思考來解碼亂碼文本、破譯文本、加強(qiáng)翻譯、理解概念，將其轉(zhuǎn)換回連貫語(yǔ)言。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

與GPT-4o不同，o1模型在輸出答案前先對(duì)問題進(jìn)行了思考，檢查這段文字，然后像破解答案一樣來將其修改成正確的句子。經(jīng)過大約15秒的思考，o1給出最終優(yōu)化版的翻譯。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

這展示出推理能力成為解決問題的有力工具。

3、回答大語(yǔ)言模型中的知名棘手問題：?jiǎn)卧~中字母計(jì)數(shù)

這個(gè)例子很簡(jiǎn)單，輸入Strawberry單詞，讓模型回答這個(gè)詞里有幾個(gè)R。

結(jié)果GPT-4o給出錯(cuò)誤回答：“2個(gè)。”

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

為什么這種高級(jí)模型會(huì)犯如此簡(jiǎn)單的錯(cuò)誤呢？這是因?yàn)橄馟PT-4o這樣的模型是為了處理文本而構(gòu)建的，而不是處理字符或單詞，因此它在遇到涉及理解字符和單詞概念的問題時(shí)可能會(huì)犯錯(cuò)。

而基于推理的新模型o1在思考幾秒鐘后，能夠給出正確答案：

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

4、編程視頻游戲

讓模型用pygame制作一個(gè)名為《尋找松鼠（Squirrel Finder）》的視頻游戲，并輸入下述要求：用戶需要通過按箭頭鍵引導(dǎo)屏幕上的“考拉”圖標(biāo)，避開漂浮的草莓，并在3秒的時(shí)間限制內(nèi)找到一只松鼠，以取得勝利。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

這對(duì)以前的模型來說比較難，但o1預(yù)覽版已經(jīng)能夠做到。o1花了21秒思考，用思維過程來規(guī)劃代碼結(jié)構(gòu)，包括收集游戲布局的細(xì)節(jié)、繪制指令、設(shè)置屏幕等等，再輸出最終的游戲編程代碼。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

復(fù)制粘貼代碼到Sublime Text編輯器中，運(yùn)行后，會(huì)先有幾行簡(jiǎn)要提示語(yǔ)。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

然后就可以開始玩《尋找松鼠》游戲了。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

與以前的模型相比，o1模型展現(xiàn)出明顯增強(qiáng)的規(guī)劃能力。

二、迷你版速度提升3~5倍，成本僅為標(biāo)準(zhǔn)版1/5

OpenAI還發(fā)布了“小杯版”模型OpenAI o1-mini，其速度更快、成本更低，且與標(biāo)準(zhǔn)版一樣在數(shù)學(xué)、編程方面表現(xiàn)突出。

OpenAI o1-mini在預(yù)訓(xùn)練期間，針對(duì)STEM（科學(xué)、技術(shù)、工程、數(shù)學(xué)四門學(xué)科）推理進(jìn)行了優(yōu)化。在使用與o1相同的高計(jì)算強(qiáng)化學(xué)習(xí)（RL）管道進(jìn)行訓(xùn)練后，o1-mini在許多推理任務(wù)上性能優(yōu)越，同時(shí)成本效率顯著提高。

OpenAI o1-mini比預(yù)覽版OpenAI o1便宜80%，適用于需要推理但不需要廣泛世界知識(shí)的應(yīng)用程序。在一些對(duì)智能和推理提出要求的基準(zhǔn)測(cè)試中，o1-mini的表現(xiàn)甚至優(yōu)于o1-preview。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲數(shù)學(xué)性能與推理成本曲線

在高中數(shù)學(xué)競(jìng)賽AIME中，o1-mini正確率為70%，大約相當(dāng)于美國(guó)高中生前500名。同時(shí)，o1、o1-preview正確率分別為74.4%、44.6%，但o1-mini價(jià)格比它們便宜得多。

在人類偏好評(píng)估上，OpenAI通過讓人類評(píng)分者在不同領(lǐng)域，針對(duì)對(duì)具有挑戰(zhàn)性的開放式提示詞測(cè)試o1-mini、o1-preview，并和GPT-4o進(jìn)行比較，得到以下測(cè)試結(jié)果。與o1-preview類似，o1-mini在推理任務(wù)繁重的領(lǐng)域比GPT-4o更受歡迎，但在以語(yǔ)言為中心的領(lǐng)域則不被看好。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲人類偏好評(píng)估結(jié)果

速度方面，GPT-4o、o1-mini和o1-preview回答同一個(gè)單詞推理問題分別耗時(shí)3秒、9秒、32秒，但GPT-4o的回答是錯(cuò)誤的，后兩者回答正確?？梢钥闯?，o1-mini得出答案的速度比o1快了大約3~5倍。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲GPT-4o、o1-mini和o1-preview回答速度

當(dāng)然，畢竟是“閹割版”，OpenAI o1-mini也一定的局限性。在日期、傳記和日?，嵤碌确荢TEM主題的事實(shí)知識(shí)上，o1-mini有所局限，表現(xiàn)與GPT-4o mini等小型模型相當(dāng)。OpenAI稱將在未來版本中改進(jìn)這些限制，將模型擴(kuò)展到STEM之外的其他專業(yè)及模態(tài)。

三、引入推理標(biāo)記，用思維鏈解決難題

與人類類似，o1在回答難題之前會(huì)進(jìn)行長(zhǎng)時(shí)間思考，且嘗試解決問題時(shí)會(huì)使用思維鏈（Chain of Thought）。

通過強(qiáng)化學(xué)習(xí)，o1學(xué)會(huì)了改進(jìn)思維鏈和使用策略。它能夠識(shí)別和糾正錯(cuò)誤，將棘手的步驟分解為更簡(jiǎn)單的步驟，并且在當(dāng)前方法不起作用時(shí)嘗試不同的方法。這一過程極大地提高了模型的推理能力。

具體來說，o1模型引入了推理標(biāo)記（Reasoning Tokens）。這些推理標(biāo)記被用于進(jìn)行“思考”，分解對(duì)提示的詞理解，并考慮多種生成響應(yīng)的方法。推理標(biāo)記生成后，模型會(huì)將答案生成為可見的完成標(biāo)記（Completion Tokens），并從其上下文中丟棄推理標(biāo)記。

以下是用戶與模型之間進(jìn)行多步驟對(duì)話的示例。每個(gè)步驟的輸入和輸出標(biāo)記都會(huì)被保留，而推理標(biāo)記則會(huì)被丟棄。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲o1模型推理過程

值得注意的是，OpenAI在進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)算法訓(xùn)練時(shí)，發(fā)現(xiàn)隨著強(qiáng)化學(xué)習(xí)、思考時(shí)間的增加，或者說隨著訓(xùn)練時(shí)間、測(cè)試時(shí)間的增加，o1的性能會(huì)持續(xù)提高。這與大模型預(yù)訓(xùn)練中的Scaling Law大不相同。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲o1性能隨著訓(xùn)練時(shí)間和測(cè)試時(shí)間計(jì)算而平穩(wěn)提升

為了展現(xiàn)o1實(shí)現(xiàn)的飛躍，OpenAI公開了預(yù)覽版o1在解決編程、數(shù)學(xué)、解碼、英語(yǔ)等難題時(shí)產(chǎn)生的思維鏈。

例如當(dāng)拿到一道解碼題目，GPT-4o先是拆解出了輸入、輸出和示例，隨后開始分析可能的解碼方式。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲GPT-4o拆解輸入、輸出和示例

它猜測(cè)第一個(gè)短語(yǔ)可能遵循與示例相同的結(jié)構(gòu)，意識(shí)到輸入文本似乎可以根據(jù)自然分隔或模式分成組，但隨后就“歇菜”了，稱自己需要更多關(guān)于可能涉及的轉(zhuǎn)換或字母移位的上下文。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲GPT-4o稱需要更多信息

另一邊，OpenAI o1-preview則通過一番思考準(zhǔn)確給出了答案。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲o1-preview正確解答解碼問題

雖然最后呈現(xiàn)出的答案很簡(jiǎn)短，但o1的思考過程非常長(zhǎng)，并且思考方式和用詞很像人類。它會(huì)先問自己“這里發(fā)生了什么”，然后復(fù)述一遍要求，隨后開始拆解任務(wù)、明確目標(biāo)。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲o1思考過程

接著，o1開始觀察自己得到的信息，并逐步分析。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲o1思考過程

在進(jìn)行了一些推理后，o1開始提出不同的解決方案。在這個(gè)過程中，還會(huì)像人類一樣突然說“等一下，我覺得……”，然后思維一轉(zhuǎn)開始嘗試新的方法。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲o1思考過程

不僅如此，在o1的思考過程中甚至還會(huì)出現(xiàn)“嗯”、“有趣”等口語(yǔ)化、情緒化的表達(dá)。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲o1思考過程

完整的思維鏈非常長(zhǎng)，這里不再一一贅述。總得來看確實(shí)如OpenAI所說，o1能夠像人類一樣不斷完善自己的思維過程，嘗試新的策略、認(rèn)識(shí)到自己的錯(cuò)誤并解決。而且這里的“像人類”不僅局限于思考方式，還體現(xiàn)在語(yǔ)氣上。

四、每周可對(duì)話30~50次，Ilya參與基礎(chǔ)貢獻(xiàn)

不同于以往，這次OpenAI沒上期貨，而是直接上線了兩款模型。

即日起，ChatGPT Plus和Team用戶可以在ChatGPT中訪問o1模型，通過模型選擇器手動(dòng)選擇o1-preview或o1-mini；企業(yè)和教育用戶則下周起可以使用，面向免費(fèi)用戶未來也有獲取訪問權(quán)限的計(jì)劃。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲用戶可在ChatGPT訪問o1模型

但也許是出于安全或成本的考慮，目前這兩款模型均限制了消息次數(shù)，預(yù)覽版和mini版每周發(fā)送消息次數(shù)分別為30、50條。OpenAI稱正在努力提高額度，并使ChatGPT能夠根據(jù)給定的提示詞，自動(dòng)選擇合適的模型。

OpenAI還上線了o1模型的API（應(yīng)用程序接口）。符合等級(jí)的開發(fā)人員現(xiàn)在可以開始使用兩種模型的API進(jìn)行原型設(shè)計(jì)，速率限制為20 RPM。這些API目前不包括函數(shù)調(diào)用、流式傳輸、對(duì)系統(tǒng)消息的支持等其他功能。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲o1、o1 mini模型API

從API文檔可見，這兩款模型的上下文窗口均為128k，而mini版輸出窗口更長(zhǎng)，是o1的兩倍，此外兩款模型訓(xùn)練數(shù)據(jù)均截至2023年10月。

OpenAI還公布了o1模型背后的核心團(tuán)隊(duì)成員：

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲o1模型背后的核心團(tuán)隊(duì)成員

其中基礎(chǔ)貢獻(xiàn)成員有21名，包括已經(jīng)離職創(chuàng)業(yè)的前OpenAI首席科學(xué)家Ilya Sutskever。

團(tuán)隊(duì)負(fù)責(zé)人有7名，分別是Jakub Pachocki、Jerry Tworek (overall)、Liam Fedus、Lukasz Kaiser、Mark Chen、Szymon Sidor、Wojciech Zaremba。項(xiàng)目經(jīng)理是Lauren Yang和Mianna Chen。

據(jù)其團(tuán)隊(duì)成員介紹，推理是一種將思考時(shí)間轉(zhuǎn)化為更好結(jié)果的能力，他們投入比以前更多的計(jì)算，訓(xùn)練模型產(chǎn)生連貫的思路，產(chǎn)生與以前截然不同的表現(xiàn)。

他們使用強(qiáng)化學(xué)習(xí)訓(xùn)練AI模型生成和磨練自己的思維鏈，甚至能比人類為它編寫的思維鏈做得更好。這種訓(xùn)練AI模型產(chǎn)生自己的思維過程的方式，使其理解和糾正錯(cuò)誤的能力顯著提高，早期o1模型已經(jīng)在數(shù)據(jù)測(cè)試中取得更高的分?jǐn)?shù)。

核心貢獻(xiàn)者和其他貢獻(xiàn)者名單如下：

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲o1核心貢獻(xiàn)者和其他貢獻(xiàn)者名單

行政領(lǐng)導(dǎo)包括OpenAI的CEO Sam Altman、總裁Greg Brockman、CEO Mira Murati等8人，支持領(lǐng)導(dǎo)有8人。

特斯拉要給xAI分享收入？馬斯克澄清：消息不準(zhǔn)確

▲o1行政領(lǐng)導(dǎo)、支持領(lǐng)導(dǎo)

全新o1模型可根據(jù)上下文推斷并更有效地利用安全規(guī)則。OpenAI已對(duì)o1-preview進(jìn)行了嚴(yán)格的測(cè)試及評(píng)估，確保該模型可以安全發(fā)布，不會(huì)增加現(xiàn)有資源可能帶來的風(fēng)險(xiǎn)。

結(jié)語(yǔ)：OpenAI掀桌子，“草莓”重構(gòu)大模型格局？

從神秘Q*模型到“草莓”模型，OpenAI的新模型終于面世。自去年11月OpenAI“政變”開始，這一模型就被曝成為導(dǎo)致阿爾特曼被開除的關(guān)鍵因素之一。當(dāng)時(shí)據(jù)傳Q*模型的演示在OpenAI內(nèi)部流傳，發(fā)展速度讓一些AI安全研究人員感到震驚。

不同于GPT-4o，o1模型選擇直接開啟了一個(gè)新的數(shù)字命名系列，而不是GPT的延續(xù)，這表明了OpenAI對(duì)其的重視。

在如今一眾大模型廠商開始卷多模態(tài)、卷應(yīng)用的情況下，OpenAI發(fā)布純文本模型o1，也許會(huì)再次將大眾的目光拉向底層模型能力的提升。大模型格局是否會(huì)在o1的影響下重構(gòu)，還有待進(jìn)一步觀察。

上一篇： OpenAI發(fā)布全新o1模型：它會(huì)像人類一樣“深思熟慮”

下一篇：vivo智能手表的回答毀三觀，AI何時(shí)不再“人工智障”？

香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放