香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

OpenAI發(fā)布全新o1模型:它會像人類一樣“深思熟慮”

作者|蘇霍伊

沒有一點點防備,OpenAI造勢已久的“草莓”(Strawberry)模型,就這樣發(fā)布了。

o1模型的介紹切片,來源:OpenAI

o1模型的介紹切片,來源:OpenAI

北京時間今天凌晨,OpenAI發(fā)布了名為OpenAI o1的新模型,也是之前所傳的“Strawberry”,但最初o1的代號為“Q*”。OpenAI的CEO薩姆·奧爾特曼(Sam Altman)則稱它為“新范式的開始”。

從OpenAI的官方信息看下來,總結(jié)o1的特點就是:更大、更強、更慢、更貴。

經(jīng)過強化學(xué)習(xí)(Reinforcement Learning),OpenAI o1在推理能力方面取得了重大進展。研發(fā)團隊觀察到,隨著訓(xùn)練時間(強化學(xué)習(xí)的增加)和思考時間(測試時的計算)的延長,o1模型的表現(xiàn)逐漸提升。這種方法的擴展所面臨的挑戰(zhàn)與大型語言模型(LLM)的預(yù)訓(xùn)練限制截然不同。

o1性能隨著訓(xùn)練時間和測試時間計算而平穩(wěn)提升,來源:OpenAI

o1性能隨著訓(xùn)練時間和測試時間計算而平穩(wěn)提升,來源:OpenAI

關(guān)于市面上所傳“o1模型能夠自主為用戶執(zhí)行瀏覽器或系統(tǒng)操作級別的任務(wù)”,目前的公開信息并未提及這一功能。

OpenAI官方表示:“雖然這款初期模型還沒有像網(wǎng)上搜索信息、上傳文件和圖片這樣的功能,但它在解決復(fù)雜推理問題上有了顯著進步,這代表了人工智能技術(shù)的新水平。所以我們決定給這個系列一個新的起點,將其命名為OpenAI o1?!庇纱丝梢?,o1的主要應(yīng)用還是集中在通過文本交互進行問題解答和分析,而不是直接控制瀏覽器或操作系統(tǒng)。

與早期版本不同,o1模型在作出回答之前會像人類一樣“深思熟慮”,用時約10—20秒,產(chǎn)生一個長長的內(nèi)部思路鏈,并能夠嘗試不同的策略并識別自身的錯誤。

這種強大推理能力使o1在多個行業(yè)中具有廣泛的應(yīng)用潛力,尤其是復(fù)雜的科學(xué)、數(shù)學(xué)和編程任務(wù)。在處理物理、化學(xué)和生物問題時,o1的表現(xiàn)甚至和該領(lǐng)域的博士生水平不相上下。在國際數(shù)學(xué)奧林匹克的資格考試(AIME)中,o1的正確率為83%,成功進入了美國前500名學(xué)生的行列,而GPT-4o模型的正確率僅為13%。

奧爾特曼也在X上分享了o1,來源:X

奧爾特曼也在X上分享了o1,來源:X

OpenAI提供了一些具體的使用案例,比如醫(yī)療研究人員可利o1來標(biāo)注細(xì)胞測序數(shù)據(jù);物理學(xué)家可用o1生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式;軟件開發(fā)者則可以借助它來構(gòu)建和執(zhí)行復(fù)雜的多步驟工作流程等。

o1系列分包含三款模型,OpenAI o1、OpenAI o1-preview和OpenAI o1-mini。這兩款模型從今天開始對用戶開放使用:

OpenAI o1:高級推理模型,暫不對外開放。

OpenAI o1-preview:這個版本更注重深度推理處理,每周可以使用30次。

OpenAI o1-mini:這個版本更高效、劃算,適用于編碼任務(wù),每周可以使用50次。

開發(fā)者和研究人員現(xiàn)在可以通過ChatGPT和應(yīng)用程序編程接口訪問這些模型。

至于價格,早先The information曾爆料,OpenAI高管正在討論其即將推出的全新大模型“草莓”(Strawberry)和“獵戶座”(Orion)的擬定在2000美元一個月,引發(fā)一眾吐槽和聲討。但今日有人發(fā)現(xiàn),ChatGPT Pro會員已經(jīng)上線了,售價200美元/月。從2000美元到200美元的落差,很難讓人不產(chǎn)生一種“占便宜”的感覺,價格心理戰(zhàn)被OpenAI玩轉(zhuǎn)得明明白白。

今年5月,奧爾特曼在于麻省理工學(xué)院校長莎莉·科恩布魯斯(Sally Kornbluth)爐邊談話中曾提到,GPT-5或?qū)?shù)據(jù)與推理引擎分離。

“GPT-5或GPT-6可以成為最佳的推理引擎,目前而言,能達(dá)到最佳引擎的唯一路徑就是訓(xùn)練大量的數(shù)據(jù)?!眾W爾特曼認(rèn)為,但實際上,模型在處理數(shù)據(jù)時浪費了許多數(shù)據(jù)資源。比如GPT-4。它也能像數(shù)據(jù)庫一樣工作,只是推理速度慢、成本高昂且效果“不盡如人意”。這些問題本質(zhì)上是因為模型的設(shè)計和訓(xùn)練方式導(dǎo)致的資源浪費。

“不可避免的,這是我們制作推理引擎模型的唯一方法的副作用。”他所能預(yù)見未來的新方法,就是將模型的推理能力與對大數(shù)據(jù)的需求性剝離。

但在今天的發(fā)布中,GPT-5沒有出現(xiàn),數(shù)據(jù)與推理引擎分離這一設(shè)想也不見蹤影。

至于價格,早先The information曾爆料,OpenAI高管擬將推出的全新大模型“草莓”(Strawberry)和“獵戶座”(Orion)的價格定在2000美元/月,這引發(fā)一眾吐槽和聲討。但今日有人發(fā)現(xiàn),ChatGPT Pro會員已經(jīng)上線了,售價為200美元/月。

從2000美元到200美元的落差,很難不讓用戶產(chǎn)生一種“占便宜”的感覺,價格心理戰(zhàn)實屬被OpenAI玩轉(zhuǎn)得明明白白。

2.打磨“思維鏈”

大模型一直因其“不會數(shù)數(shù)”而被詬病。究其根本,是因為大模型缺乏結(jié)構(gòu)化推理的能力。

推理是人類智能的核心能力之一。而大模型主要通過非結(jié)構(gòu)化的文本數(shù)據(jù)進行訓(xùn)練,這種數(shù)據(jù)通常包括新聞文章、書籍、網(wǎng)頁文本等。文本是自然語言形式,不遵循嚴(yán)格的邏輯或結(jié)構(gòu)化規(guī)則,所以模型學(xué)到的也主要是如何根據(jù)上下文生成語言,而不是如何邏輯推理或遵循固定的規(guī)則處理信息。

但許多復(fù)雜推理任務(wù)都是結(jié)構(gòu)化的。

比如邏輯推斷、數(shù)學(xué)問題解決或編程等。如果我們想要走出一個迷宮,就需要遵循一系列邏輯和空間規(guī)則才能找到出口。這類問題要求模型能夠理解并應(yīng)用一系列固定的步驟或規(guī)則,但這正是大部分大模型所缺乏的。

所以,像ChatGPT、BARD等模型雖能根據(jù)訓(xùn)練數(shù)據(jù)生成看似合理的回答,其實更像是“隨即鸚鵡”(stochastic parroting),它們往往無法真正理解背后的復(fù)雜邏輯或執(zhí)行高級推理任務(wù)。

要知道,大模型在處理非結(jié)構(gòu)化的自然語言文本時表現(xiàn)出色,原于這正是訓(xùn)練數(shù)據(jù)的側(cè)重點。但當(dāng)涉及到需要結(jié)構(gòu)化邏輯推理的任務(wù)時,它們往往難以表現(xiàn)得像人類一樣精確。

為解決這一難題,OpenAI想到了用思維鏈(Chain of Thought, CoT)來“破局”。

思維鏈?zhǔn)且环N幫助AI模型進行推理的技術(shù)。它通過讓模型在回答復(fù)雜問題時,逐步解釋每一步的推理過程,而不是直接給出答案。因此模型在回答問題時就像是人類在解題時那樣,先思考每一步的邏輯,再逐步推導(dǎo)出最終的結(jié)果。

但在AI訓(xùn)練的過程中,人工標(biāo)注思維鏈耗時又昂貴,在scaling law主導(dǎo)下所需的數(shù)據(jù)量對人工而言基本是一項不可能完成的任務(wù)。

這時,強化學(xué)習(xí)就成了更實用的替代方案。

強化學(xué)習(xí)可以讓模型通過實踐和試錯自己學(xué)習(xí),它不需要人工標(biāo)注具體每一步怎么走,而是通過不斷的實驗和反饋來優(yōu)化解決問題的方法。

具體來說,就是模型在嘗試解決問題的過程中,根據(jù)所采取行動的結(jié)果(好的或壞的)來調(diào)整自己的行為。這樣,模型能夠自主探索多種可能的解決方案,并通過不斷試錯找到最有效的方法。比如在游戲或模擬環(huán)境中,AI可以通過自我對弈不斷優(yōu)化策略,最終學(xué)會如何精確執(zhí)行復(fù)雜任務(wù),而無需人工逐一指導(dǎo)每一步。

比如2016年橫掃圍棋界的AlphaGo,它就是結(jié)合了深度學(xué)習(xí)和強化學(xué)習(xí)的方法,通過大量的自我對弈來不斷優(yōu)化其決策模型,最終能夠戰(zhàn)勝世界頂級的圍棋選手李世石。

o1模型就是用和AlphaGo“同門”的方法逐步處理問題。

在這個過程中,o1通過強化學(xué)習(xí)不斷完善自己的思考過程,學(xué)會識別和糾正錯誤,將復(fù)雜步驟分解為更簡單的部分,并在遇到障礙時嘗試新的方法。這種訓(xùn)練方式顯著提升了o1的推理能力,讓o1能夠更有效地解決問題。

OpenAI的聯(lián)合創(chuàng)始人之一格雷格·布羅克曼(Greg Brockman)對此感到“十分自豪”,“這是我們首次使用強化學(xué)習(xí)訓(xùn)練的模型。”他說道。

布羅克曼的推文切片,來源:X

布羅克曼的推文切片,來源:X

布羅克曼介紹,OpenAI的模型原先進行的是系統(tǒng)一型思維(快速、直觀的決策)而思維鏈技術(shù)則啟動了系統(tǒng)二型思維(慎重、分析性的思考)。

系統(tǒng)一型思維適合快速應(yīng)對,而系統(tǒng)二型思維則通過“思維鏈”技術(shù),讓模型能夠逐步推理解決問題。實踐表明,通過持續(xù)的試錯,從頭到尾完整訓(xùn)練模型(如在圍棋或Dota等游戲中應(yīng)用),可以極大提升模型的表現(xiàn)。

此外,o1技術(shù)雖然仍在開發(fā)初期,但已在安全性方面表現(xiàn)良好。如通過增強模型對策略進行深入推理來提高其對抗攻擊的魯棒性和降低幻覺現(xiàn)象的風(fēng)險。這種深層次的推理能力已經(jīng)開始在安全性評估中顯示出積極的效果。

“我們基于o1模型開發(fā)了一個新的模型,讓它參加了2024年國際信息學(xué)奧林匹克(IOI)比賽,并在49%的排名中得到了213分?!監(jiān)penAI方表示。

它在與人類參賽者相同的條件下參賽,解決六個算法問題,每個問題有50次提交機會。通過篩選多個候選方案并根據(jù)公開測試用例、模型生成的測試用例和評分函數(shù)來選擇提交方案,證明了其選擇策略的有效性,平均得分高于隨機提交的分?jǐn)?shù)。

在提交次數(shù)放寬到每題10,000次時,模型表現(xiàn)得更好,得分超過了金牌標(biāo)準(zhǔn)。最后,這個模型在模擬的Codeforces編程比賽中展示了“令人驚嘆”的編碼能力。GPT-4o的Elo等級為808,位于人類競爭者的第11百分位。而我們的新模型Elo等級為1807,表現(xiàn)優(yōu)于93%的競爭者。

在編程競賽中進一步的微調(diào)提升了o1模型的表現(xiàn),來源:OpenAI

在編程競賽中進一步的微調(diào)提升了o1模型的表現(xiàn),來源:OpenAI

2.“多事之秋”的OpenAI

在o1發(fā)布前,OpenAI一直深陷公司核心高層變動的陰云中。

今年2月,OpenAI的創(chuàng)始成員、研究科學(xué)家安德烈·卡帕斯(Andrej Karpathy)在X上宣布,他已離開這家公司??ㄅ了贡硎荆押玫仉x開了OpenAI,“不是因為任何特定的事件、問題或戲劇性事件”。

前首席科學(xué)家、聯(lián)合創(chuàng)始人伊利亞·蘇茨克維(Ilya Sutskever)則在5月宣告離職,超級對齊團隊也隨之解散,業(yè)內(nèi)認(rèn)為這是OpenAI在追求技術(shù)突破和確保AI安全之間平衡的失敗嘗試。

右起分別是伊利亞·蘇茨克維、格雷格·布洛克曼 (Greg Brockman)、山姆·奧爾特曼和米拉·穆拉蒂。來源:紐約時報

右起分別是伊利亞·蘇茨克維、格雷格·布洛克曼 (Greg Brockman)、山姆·奧爾特曼和米拉·穆拉蒂。來源:紐約時報

在伊利亞發(fā)布通告的數(shù)小時后,RLHF發(fā)明者之一、超級對齊團隊的共同主管簡·雷克(Jan Leike)也追隨他的腳步一起離開,再次給OpenAI的未來增加了更多的不確定性。

8月,OpenAI聯(lián)合創(chuàng)始人、研究科學(xué)家約翰·舒爾曼(John Schulman)透露了自己的離職,并加入Anthropic專注于AI對齊的深入研究。他解釋說,離職是為了聚焦于AI對齊和技術(shù)工作,并非因為OpenAI不支持對齊研究。舒爾曼感謝了在OpenAI的同事,并對它未來的發(fā)展“充滿信心”。

而Anthropic正是由2020年離職的OpenAI的研究副總裁達(dá)里奧·阿莫蒂(Dario Amodei) ,和時任安全與政策副總裁丹妮拉·阿莫蒂(Daniela Amodei)兄妹創(chuàng)辦的。

布羅克曼也在同月宣布休假一年,這是他自9年前共同創(chuàng)立OpenAI以來的“第一次長假”。

9月10日,領(lǐng)導(dǎo)OpenAI GPT-4o和GPT-5模型音頻交互研究的亞歷西斯·克努亞(Alexis Conneau)宣布離職并創(chuàng)業(yè),克努亞的研究致力于實現(xiàn)電影《Her》中展示的那種自然語音交互體驗,但相關(guān)產(chǎn)品的發(fā)布卻一再延遲。

OpenAI自成立以來,就因其非營利和商業(yè)化的雙重身份而備受關(guān)注。隨著商業(yè)化化進程的加速,內(nèi)部關(guān)于其非營利使命的緊張關(guān)系日益明顯,這也是團隊成員流失的一個原因。同時埃隆·馬斯克(Elon Musk)最近的一起訴訟可能也與人員流失有關(guān)。

OpenAI研究員丹尼爾·科科塔洛(Daniel Kokotajlo)在離職后接受媒體專訪時表示,去年發(fā)生的“宮斗”事件中,奧爾特曼被短暫解雇后迅速復(fù)職,專注于AGI安全的三名董事會成員被撤換?!斑@使得奧爾特曼和布羅克曼進一步鞏固了權(quán)力,而主要關(guān)注AGI安全的人被邊緣化。(奧爾特曼)他們背離了公司在2022年制定的計劃”。

此外,OpenAI面臨高達(dá)50億美元的預(yù)計虧損,運營成本高達(dá)85億美元,其中大部分為服務(wù)器租用和訓(xùn)練成本。為應(yīng)對高昂的運營壓力,OpenAI正在謀求新一輪融資,估值可能超過1000億美元,微軟、蘋果和英偉達(dá)等潛在投資者表達(dá)了興趣。公司高管正在全球范圍內(nèi)尋求投資以支持其快速發(fā)展的資金需求。

為了緩解財務(wù)壓力,OpenAI正在尋求新一輪的融資,據(jù)《紐約時報》11日報道,OpenAI上周還希望以1000億美元估值融資大約10億美元。但因構(gòu)建大型AI系統(tǒng)所需算力將導(dǎo)致更大開支,該公司近日決定調(diào)高融資額度到65億美元。

但有外媒援引知情人士以及未公開的內(nèi)部財務(wù)數(shù)據(jù)分析稱,OpenAI今年可能面臨高達(dá)50億美元的巨額虧損,總運營成本預(yù)計達(dá)到85億美元。其中向微軟租用服務(wù)器的費用高達(dá)40億美元,數(shù)據(jù)訓(xùn)練成本則是30億美元。由于更先進的模型如Strawberry和Orion的運行成本更高,公司的經(jīng)濟壓力進一步加大。

(封面圖來源:OpenAI)


相關(guān)內(nèi)容