香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

OpenAI草莓模型深夜突襲!理化生達(dá)博士生水平,比GPT-4o強(qiáng)多了,ChatGPT可用

作者 | 香草

編輯 | 李水青

智東西9月13日報(bào)道,今日凌晨,OpenAI突然發(fā)布傳說中“草莓”模型的部分預(yù)覽版——OpenAI o1預(yù)覽版。這是一系列全新AI模型,能推理復(fù)雜的任務(wù),解決比以前科學(xué)、編程、數(shù)學(xué)模型更難的問題。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲OpenAI發(fā)布o(jì)1模型

OpenAI o1是全新系列AI模型的第一款。與以往模型不同的是,它擁有進(jìn)化的推理能力,會(huì)在回答前進(jìn)行縝密思考,生成一個(gè)長長的內(nèi)部思維鏈,在競爭性編程問題上排名第89位,在美國數(shù)學(xué)奧林匹克預(yù)選資格賽中排名前500,在物理、生物、化學(xué)問題的基準(zhǔn)測試中準(zhǔn)確度超過了人類博士水平!

新發(fā)布的另一款o1 mini是一款更快、更小的模型,使用與o1類似的框架進(jìn)行訓(xùn)練。o1 mini擅長理工學(xué)科,尤其是數(shù)學(xué)和編程,其成本比o1預(yù)覽版便宜80%。

這兩款模型被OpenAI視為復(fù)雜推理任務(wù)的重大進(jìn)步,因此被命名為o1,重置計(jì)數(shù)器,而非作為GPT系列的延續(xù)。

不過,推理增強(qiáng)版的o1模型,還是在9.9和9.11比大小這種“高階問題”上慘敗。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲o1模型回答“比大小”問題

已經(jīng)離開OpenAI創(chuàng)業(yè)的OpenAI創(chuàng)始成員、前特斯拉AI高級總監(jiān)Andrej Karpathy今早發(fā)文吐槽:“o1-mini一直拒絕為我解決黎曼假設(shè)。模型懶惰仍然是一個(gè)主要的問題?”

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲Andrej Karpathy吐槽o1 mini“懶惰”

OpenAI已對o1預(yù)覽版進(jìn)行嚴(yán)格測試及評估,確保該模型可以安全發(fā)布。ChatGPT的Plus和Team用戶即日可選用兩款新模型,Tier 5級開發(fā)者亦率先獲得新模型的API訪問權(quán)限。

OpenAI還公布了o1模型背后的核心團(tuán)隊(duì)成員,其中基礎(chǔ)貢獻(xiàn)成員21名,包括已經(jīng)離職創(chuàng)業(yè)的前OpenAI首席科學(xué)家Ilya Sutskever,團(tuán)隊(duì)負(fù)責(zé)人有7名。

一、MMLU媲美人類專家,編程能力8倍殺GPT-4o

與此前曝料的一樣,OpenAI o1被訓(xùn)練成為會(huì)花更多時(shí)間思考問題,而后再作出反應(yīng)的模型。它在回答之前會(huì)先思考,產(chǎn)生一個(gè)很長的內(nèi)部思路鏈,并且能像人類一樣完善自己的思維過程不斷嘗試新的策略并認(rèn)識到自己的錯(cuò)誤。

作為早期預(yù)覽模型,OpenAI o1目前只支持文本對話,不具備瀏覽網(wǎng)頁獲取信息、上傳文件和圖片等多模態(tài)能力。

性能方面,OpenAI o1在物理、化學(xué)和生物學(xué)等基準(zhǔn)任務(wù)上的表現(xiàn)與博士生相當(dāng),并且在數(shù)學(xué)和編程方面表現(xiàn)出色。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲OpenAI o1在數(shù)學(xué)、編程上的測評基準(zhǔn)

在國際數(shù)學(xué)奧林匹克(IMO)資格考試中,OpenAI的上一代模型GPT-4o正確率為13%,而OpenAI o1則達(dá)到83%。在編程比賽Codeforces中,OpenAI o1的分?jǐn)?shù)為89,而GPT-4o僅有11。即使是預(yù)覽版的o1-preview模型,性能也比GPT-4o要好數(shù)倍。

在大多數(shù)基準(zhǔn)測試中,o1的表現(xiàn)都比GPT-4o要好得多,覆蓋57個(gè)MMLU子類別中的54個(gè)。在啟用視覺感知功能后,o1在MMLU上的得分為78.2%,成為第一個(gè)與人類專家相媲美的模型

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲o1預(yù)覽版與GPT-4o性能對比

以下是OpenAI o1預(yù)覽版幾個(gè)示例:

1、解決一個(gè)復(fù)雜的邏輯難題

輸入一個(gè)復(fù)雜的年齡謎題:當(dāng)公主的年齡是王子的兩倍時(shí),當(dāng)公主的年齡是他們現(xiàn)在年齡總和的一半時(shí),公主就和王子一樣老了。問王子和公主的年齡是多大?給出這個(gè)問題的所有解決方案。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

模型思考了20多秒后開始作答。其回答過程的邏輯非常連貫。首先是確定年齡方程,將給定語句轉(zhuǎn)化成數(shù)學(xué)方程,找到滿足這些方程的所有可能解。然后開始一步一步分析問題:

第一步定義變量,用P代表prince(王子),用Q代表princess(公主);第二步理解問題中的兩個(gè)條件;第三部將條件轉(zhuǎn)化為方程;第四步解方程;第五步用這些值驗(yàn)證所有條件;第六步給出所有可能的解法。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

最后得出結(jié)論:

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

2、翻譯有錯(cuò)誤的句子

添加額外不必要的輔音會(huì)影響韓語閱讀。母語使用者讀起來會(huì)感覺不自然,他們會(huì)在看到這類句子時(shí)自動(dòng)更改并理解文本。但這對于模型來說是個(gè)有難度的挑戰(zhàn)。

輸入一個(gè)嚴(yán)重?fù)p壞的韓語提示詞后,OpenAI o1首先意識到輸入文本存在亂碼或未對齊的韓語字符,詢問用戶是否愿意檢查輸入錯(cuò)誤。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

o1模型會(huì)首先理解底層結(jié)構(gòu),經(jīng)過大約10秒的思考來解碼亂碼文本、破譯文本、加強(qiáng)翻譯、理解概念,將其轉(zhuǎn)換回連貫語言。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

與GPT-4o不同,o1模型在輸出答案前先對問題進(jìn)行了思考,檢查這段文字,然后像破解答案一樣來將其修改成正確的句子。經(jīng)過大約15秒的思考,o1給出最終優(yōu)化版的翻譯。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

這展示出推理能力成為解決問題的有力工具。

3、回答大語言模型中的知名棘手問題:單詞中字母計(jì)數(shù)

這個(gè)例子很簡單,輸入Strawberry單詞,讓模型回答這個(gè)詞里有幾個(gè)R

結(jié)果GPT-4o給出錯(cuò)誤回答:“2個(gè)?!?/p>

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

為什么這種高級模型會(huì)犯如此簡單的錯(cuò)誤呢?這是因?yàn)橄馟PT-4o這樣的模型是為了處理文本而構(gòu)建的,而不是處理字符或單詞,因此它在遇到涉及理解字符和單詞概念的問題時(shí)可能會(huì)犯錯(cuò)。

而基于推理的新模型o1在思考幾秒鐘后,能夠給出正確答案:

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

4、編程視頻游戲

讓模型用pygame制作一個(gè)名為《尋找松鼠(Squirrel Finder)》的視頻游戲,并輸入下述要求:用戶需要通過按箭頭鍵引導(dǎo)屏幕上的“考拉”圖標(biāo),避開漂浮的草莓,并在3秒的時(shí)間限制內(nèi)找到一只松鼠,以取得勝利。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

這對以前的模型來說比較難,但o1預(yù)覽版已經(jīng)能夠做到。o1花了21秒思考,用思維過程來規(guī)劃代碼結(jié)構(gòu),包括收集游戲布局的細(xì)節(jié)、繪制指令、設(shè)置屏幕等等,再輸出最終的游戲編程代碼。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

復(fù)制粘貼代碼到Sublime Text編輯器中,運(yùn)行后,會(huì)先有幾行簡要提示語。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

然后就可以開始玩《尋找松鼠》游戲了。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

與以前的模型相比,o1模型展現(xiàn)出明顯增強(qiáng)的規(guī)劃能力。

二、迷你版速度提升3~5倍,成本僅為標(biāo)準(zhǔn)版1/5

OpenAI還發(fā)布了“小杯版”模型OpenAI o1-mini,其速度更快、成本更低,且與標(biāo)準(zhǔn)版一樣在數(shù)學(xué)、編程方面表現(xiàn)突出。

OpenAI o1-mini在預(yù)訓(xùn)練期間,針對STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué)四門學(xué)科)推理進(jìn)行了優(yōu)化。在使用與o1相同的高計(jì)算強(qiáng)化學(xué)習(xí)(RL)管道進(jìn)行訓(xùn)練后,o1-mini在許多推理任務(wù)上性能優(yōu)越,同時(shí)成本效率顯著提高。

OpenAI o1-mini比預(yù)覽版OpenAI o1便宜80%,適用于需要推理但不需要廣泛世界知識的應(yīng)用程序。在一些對智能和推理提出要求的基準(zhǔn)測試中,o1-mini的表現(xiàn)甚至優(yōu)于o1-preview。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲數(shù)學(xué)性能與推理成本曲線

在高中數(shù)學(xué)競賽AIME中,o1-mini正確率為70%,大約相當(dāng)于美國高中生前500名。同時(shí),o1、o1-preview正確率分別為74.4%、44.6%,但o1-mini價(jià)格比它們便宜得多。

在人類偏好評估上,OpenAI通過讓人類評分者在不同領(lǐng)域,針對對具有挑戰(zhàn)性的開放式提示詞測試o1-mini、o1-preview,并和GPT-4o進(jìn)行比較,得到以下測試結(jié)果。與o1-preview類似,o1-mini在推理任務(wù)繁重的領(lǐng)域比GPT-4o更受歡迎,但在以語言為中心的領(lǐng)域則不被看好。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲人類偏好評估結(jié)果

速度方面,GPT-4o、o1-mini和o1-preview回答同一個(gè)單詞推理問題分別耗時(shí)3秒、9秒、32秒,但GPT-4o的回答是錯(cuò)誤的,后兩者回答正確??梢钥闯?,o1-mini得出答案的速度比o1快了大約3~5倍。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲GPT-4o、o1-mini和o1-preview回答速度

當(dāng)然,畢竟是“閹割版”,OpenAI o1-mini也一定的局限性。在日期、傳記和日?,嵤碌确荢TEM主題的事實(shí)知識上,o1-mini有所局限,表現(xiàn)與GPT-4o mini等小型模型相當(dāng)。OpenAI稱將在未來版本中改進(jìn)這些限制,將模型擴(kuò)展到STEM之外的其他專業(yè)及模態(tài)。

三、引入推理標(biāo)記,用思維鏈解決難題

與人類類似,o1在回答難題之前會(huì)進(jìn)行長時(shí)間思考,且嘗試解決問題時(shí)會(huì)使用思維鏈(Chain of Thought)。

通過強(qiáng)化學(xué)習(xí),o1學(xué)會(huì)了改進(jìn)思維鏈和使用策略。它能夠識別和糾正錯(cuò)誤,將棘手的步驟分解為更簡單的步驟,并且在當(dāng)前方法不起作用時(shí)嘗試不同的方法。這一過程極大地提高了模型的推理能力。

具體來說,o1模型引入了推理標(biāo)記(Reasoning Tokens)。這些推理標(biāo)記被用于進(jìn)行“思考”,分解對提示的詞理解,并考慮多種生成響應(yīng)的方法。推理標(biāo)記生成后,模型會(huì)將答案生成為可見的完成標(biāo)記(Completion Tokens),并從其上下文中丟棄推理標(biāo)記。

以下是用戶與模型之間進(jìn)行多步驟對話的示例。每個(gè)步驟的輸入和輸出標(biāo)記都會(huì)被保留,而推理標(biāo)記則會(huì)被丟棄。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲o1模型推理過程

值得注意的是,OpenAI在進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)算法訓(xùn)練時(shí),發(fā)現(xiàn)隨著強(qiáng)化學(xué)習(xí)、思考時(shí)間的增加,或者說隨著訓(xùn)練時(shí)間、測試時(shí)間的增加,o1的性能會(huì)持續(xù)提高。這與大模型預(yù)訓(xùn)練中的Scaling Law大不相同。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲o1性能隨著訓(xùn)練時(shí)間和測試時(shí)間計(jì)算而平穩(wěn)提升

為了展現(xiàn)o1實(shí)現(xiàn)的飛躍,OpenAI公開了預(yù)覽版o1在解決編程、數(shù)學(xué)、解碼、英語等難題時(shí)產(chǎn)生的思維鏈。

例如當(dāng)拿到一道解碼題目,GPT-4o先是拆解出了輸入、輸出和示例,隨后開始分析可能的解碼方式。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲GPT-4o拆解輸入、輸出和示例

它猜測第一個(gè)短語可能遵循與示例相同的結(jié)構(gòu),意識到輸入文本似乎可以根據(jù)自然分隔或模式分成組,但隨后就“歇菜”了,稱自己需要更多關(guān)于可能涉及的轉(zhuǎn)換或字母移位的上下文。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲GPT-4o稱需要更多信息

另一邊,OpenAI o1-preview則通過一番思考準(zhǔn)確給出了答案

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲o1-preview正確解答解碼問題

雖然最后呈現(xiàn)出的答案很簡短,但o1的思考過程非常長,并且思考方式和用詞很像人類。它會(huì)先問自己“這里發(fā)生了什么”,然后復(fù)述一遍要求,隨后開始拆解任務(wù)、明確目標(biāo)

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲o1思考過程

接著,o1開始觀察自己得到的信息,并逐步分析。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲o1思考過程

在進(jìn)行了一些推理后,o1開始提出不同的解決方案。在這個(gè)過程中,還會(huì)像人類一樣突然說“等一下,我覺得……”,然后思維一轉(zhuǎn)開始嘗試新的方法

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲o1思考過程

不僅如此,在o1的思考過程中甚至還會(huì)出現(xiàn)“嗯”、“有趣”等口語化、情緒化的表達(dá)。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲o1思考過程

完整的思維鏈非常長,這里不再一一贅述??偟脕砜创_實(shí)如OpenAI所說,o1能夠像人類一樣不斷完善自己的思維過程,嘗試新的策略、認(rèn)識到自己的錯(cuò)誤并解決。而且這里的“像人類”不僅局限于思考方式,還體現(xiàn)在語氣上。

四、每周可對話30~50次,Ilya參與基礎(chǔ)貢獻(xiàn)

不同于以往,這次OpenAI沒上期貨,而是直接上線了兩款模型。

即日起,ChatGPT Plus和Team用戶可以在ChatGPT中訪問o1模型,通過模型選擇器手動(dòng)選擇o1-preview或o1-mini;企業(yè)和教育用戶則下周起可以使用,面向免費(fèi)用戶未來也有獲取訪問權(quán)限的計(jì)劃。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲用戶可在ChatGPT訪問o1模型

但也許是出于安全或成本的考慮,目前這兩款模型均限制了消息次數(shù),預(yù)覽版和mini版每周發(fā)送消息次數(shù)分別為30、50條。OpenAI稱正在努力提高額度,并使ChatGPT能夠根據(jù)給定的提示詞,自動(dòng)選擇合適的模型。

OpenAI還上線了o1模型的API(應(yīng)用程序接口)。符合等級的開發(fā)人員現(xiàn)在可以開始使用兩種模型的API進(jìn)行原型設(shè)計(jì),速率限制為20 RPM。這些API目前不包括函數(shù)調(diào)用、流式傳輸、對系統(tǒng)消息的支持等其他功能。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲o1、o1 mini模型API

從API文檔可見,這兩款模型的上下文窗口均為128k,而mini版輸出窗口更長,是o1的兩倍,此外兩款模型訓(xùn)練數(shù)據(jù)均截至2023年10月。

OpenAI還公布了o1模型背后的核心團(tuán)隊(duì)成員

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲o1模型背后的核心團(tuán)隊(duì)成員

其中基礎(chǔ)貢獻(xiàn)成員有21名,包括已經(jīng)離職創(chuàng)業(yè)的前OpenAI首席科學(xué)家Ilya Sutskever。

團(tuán)隊(duì)負(fù)責(zé)人有7名,分別是Jakub Pachocki、Jerry Tworek (overall)、Liam Fedus、Lukasz Kaiser、Mark Chen、Szymon Sidor、Wojciech Zaremba。項(xiàng)目經(jīng)理是Lauren Yang和Mianna Chen。

據(jù)其團(tuán)隊(duì)成員介紹,推理是一種將思考時(shí)間轉(zhuǎn)化為更好結(jié)果的能力,他們投入比以前更多的計(jì)算,訓(xùn)練模型產(chǎn)生連貫的思路,產(chǎn)生與以前截然不同的表現(xiàn)。

他們使用強(qiáng)化學(xué)習(xí)訓(xùn)練AI模型生成和磨練自己的思維鏈,甚至能比人類為它編寫的思維鏈做得更好。這種訓(xùn)練AI模型產(chǎn)生自己的思維過程的方式,使其理解和糾正錯(cuò)誤的能力顯著提高,早期o1模型已經(jīng)在數(shù)據(jù)測試中取得更高的分?jǐn)?shù)。

核心貢獻(xiàn)者和其他貢獻(xiàn)者名單如下:

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲o1核心貢獻(xiàn)者和其他貢獻(xiàn)者名單

行政領(lǐng)導(dǎo)包括OpenAI的CEO Sam Altman、總裁Greg Brockman、CEO Mira Murati等8人,支持領(lǐng)導(dǎo)有8人。

特斯拉要給xAI分享收入?馬斯克澄清:消息不準(zhǔn)確

▲o1行政領(lǐng)導(dǎo)、支持領(lǐng)導(dǎo)

全新o1模型可根據(jù)上下文推斷并更有效地利用安全規(guī)則。OpenAI已對o1-preview進(jìn)行了嚴(yán)格的測試及評估,確保該模型可以安全發(fā)布,不會(huì)增加現(xiàn)有資源可能帶來的風(fēng)險(xiǎn)。

結(jié)語:OpenAI掀桌子,“草莓”重構(gòu)大模型格局?

從神秘Q*模型到“草莓”模型,OpenAI的新模型終于面世。自去年11月OpenAI“政變”開始,這一模型就被曝成為導(dǎo)致阿爾特曼被開除的關(guān)鍵因素之一。當(dāng)時(shí)據(jù)傳Q*模型的演示在OpenAI內(nèi)部流傳,發(fā)展速度讓一些AI安全研究人員感到震驚。

不同于GPT-4o,o1模型選擇直接開啟了一個(gè)新的數(shù)字命名系列,而不是GPT的延續(xù),這表明了OpenAI對其的重視。

在如今一眾大模型廠商開始卷多模態(tài)、卷應(yīng)用的情況下,OpenAI發(fā)布純文本模型o1,也許會(huì)再次將大眾的目光拉向底層模型能力的提升。大模型格局是否會(huì)在o1的影響下重構(gòu),還有待進(jìn)一步觀察。


相關(guān)內(nèi)容