全球首位AI軟件工程師Devin誕生了,它掌握全棧技能,云端部署、底層代碼、改bug、訓(xùn)練和微調(diào)AI模型都不在話下。最可怕的是,它完全不怕996,老黃的預(yù)言是徹底成真了!
就在剛剛,世界上第一位AI程序員Devin誕生。
一家叫Cognition的10人初創(chuàng)公司,才成立不到2個月,就給了全世界億點點震撼。
剛一放出,Devin就刷爆了全網(wǎng)。
它掌握了全棧技能,能自主學(xué)習(xí)不熟悉的技術(shù),端到端地構(gòu)建和部署應(yīng)用程序,自己改bug,甚至還能訓(xùn)練和微調(diào)自己的AI模型!
在SWE-bench上,它的表現(xiàn)遠(yuǎn)遠(yuǎn)超過Claude 2、Llama、GPT-4等選手,取得了13.86%的驚人成績!
也就是說,它已經(jīng)能通過AI公司的面試了。
就在前不久,英偉達(dá)CEO黃仁勛表示,自己相信就在不久的將來,人類再也不需要學(xué)習(xí)如何編碼了,孩子們應(yīng)該停止編程課。
誰能想到,才短短數(shù)月,他的預(yù)言就成真了!
更令人震驚的是,Devin背后擁有一支強(qiáng)大的金牌程序員團(tuán)隊(規(guī)模不大,人才濟(jì)濟(jì))。
據(jù)介紹,僅創(chuàng)始團(tuán)隊已經(jīng)狂攬了10個IOI金牌!
首席執(zhí)行官Scott Wu和弟弟Neal Wu獲獎情況
Cognition AI的首席執(zhí)行官Scott Wu稱,自己從9歲開始學(xué)習(xí)編程,便愛上了將想法變成現(xiàn)實的能力?,F(xiàn)在,這個夢想居然真的實現(xiàn)了。
網(wǎng)友驚呼:碼農(nóng)不存在了!?
看到Devin如此無敵的能力,網(wǎng)友驚呼,一切都完結(jié)了!
Devin會搶走我的飯碗嗎?
德?lián)銩I之父,OpenAI的研究科學(xué)家Noam Brown表示,「2024年將是人工智能令人興奮的一年」。
計算機(jī)科學(xué)家,AI創(chuàng)業(yè)公司CEOSilas Alberti評價到:
它是一個能夠獨立完成任務(wù)的自主系統(tǒng),在快速原型設(shè)計、修復(fù)bugs和復(fù)雜數(shù)據(jù)的可視化上表現(xiàn)卓越。
大部分其他助手在進(jìn)行四五步操作后就會偏離任務(wù)軌道,但Devin能夠在整個任務(wù)過程中準(zhǔn)確地保持它的目標(biāo)和方向不變。
投資了Cognition AI的硅谷大佬Peter Thiel更是認(rèn)為,Cognition AI與Founders Fund之前投資過的DeepMind,現(xiàn)在的AI巨型獨角獸OpenAI,Scale AI等公司處于同一水平。
AI初創(chuàng)公司Unify創(chuàng)始人稱,Devin不僅搶走了我的工作,還搶走了我的名字,簡直是雪上加霜。
美國著名開發(fā)者Brian Roemmele表示,自主編碼智能體Devin已現(xiàn)AGI雛形!它能在幾分鐘內(nèi)自主編寫整個應(yīng)用程序。這是真正無代碼未來的開始。
Spotify工程師表示:「目前尚不清楚智能體會在幾年內(nèi)取代軟件開發(fā)人員,但免費午餐已經(jīng)不復(fù)存在。」
「從為期8周的訓(xùn)練營畢業(yè),然后找到一份價值 20 萬美元的工作,這樣的日子已經(jīng)一去不復(fù)返了。 做好磨練和深入學(xué)習(xí)的準(zhǔn)備。熟練地引導(dǎo)人工智能取得好的結(jié)果可能才是未來程序員能體現(xiàn)出來的價值?!?/p>
世界首位AI軟件工程師Devin
AI軟件工程師Devin的影響力,簡直堪比2023年全網(wǎng)炸鍋的智能體——AutoGPT。
Devin究竟有多強(qiáng)大?
Devin可以規(guī)劃和執(zhí)行需要數(shù)千項決策的復(fù)雜工程任務(wù)。
并且,它可以在每一步回憶相關(guān)的上下文,隨著時間的推移學(xué)習(xí),并糾正錯誤。
研究人員還為Devin提供了常見的開發(fā)工具,包括shell、代碼編輯器、以及瀏覽器——皆是人類完成任務(wù)最需要的工具。
此外,Devin還具備主動與用戶協(xié)作的能力。
比如,實時報告進(jìn)度,接受反饋,并根據(jù)需要與你一起完成設(shè)計選擇。
目前,Cognition AI還推出了一個Devin定制的Chrome插件——Tab Switcher。
而Cognition的開發(fā)者們紛紛分享出了自己使用Devin的示例,簡直不要太驚艷!
學(xué)習(xí)如何使用陌生的技術(shù)
當(dāng)你發(fā)給Devin一篇博文后,它會在幾分鐘內(nèi)完成自主學(xué)習(xí),從閱讀文章,運行代碼。
可以看到,Devin在Modal上運行了ControlNet,在寫代碼過程中,還會自我debug。
最后,人類程序員Sara想要帶有自己名字的桌面壁紙,就立刻生成了。
構(gòu)建和部署端到端的應(yīng)用程序
當(dāng)你想要玩一個「生命游戲」(the Game of Life),交給Devin做就好了。
Devin首先會用工具Shell,創(chuàng)建一個新的react應(yīng)用程序,然后開始通過編輯器編寫代碼。
代碼完成后,它還會將應(yīng)用自動部署到Netlify,一個初步的「生命游戲」就做好了。
這個過程中,Devin還可以逐一根據(jù)用戶請求,完成功能的添加。
比如在初始屏幕上加上像素化的「Devin」一詞,然后希望這個字體再大一些,幀速率更快。
與此同時,人類程序員要求Devin修復(fù)一個bug——屏幕在3秒后凍結(jié)的錯誤。
下一步,讓Devin在10秒后提高幀速率,讓網(wǎng)站能適應(yīng)不同的窗口大小。
同時,一個游戲還得需要交互性,即在某處點擊鼠標(biāo)時,應(yīng)該生成一個新塊。
接下來,就是見證奇跡的時刻了!
自行查找代碼庫錯誤,自行修復(fù)
這個名叫Andrew的開發(fā)者表示,自己維護(hù)了一個大型開源存儲庫,其中包含許多不同的算法,用于競爭性編程。
不久前有朋友告訴他:其中一個實現(xiàn)中有bug。Andrew插入了一個快速修復(fù),但并沒有測試它,因為沒能抽出時間來編寫測試用例。
既然如此,就給Devin來試試看!
小哥給了Devin存儲庫,讓它來檢查和處理這個存儲庫。然后,Devin就找到了正確的存儲庫,檢查了所有文件。
接下來,在小哥的要求下,Devin還很輕易地就把測試寫了出來——只是看了一下測試應(yīng)該是什么樣,接口是什么樣,就完成了這項任務(wù)。
挑戰(zhàn)還沒完,接下來,小哥要求Devin將對所有輸入進(jìn)行測試,而不僅僅是測試這個輸入,也就是自己常用的「暴力測試」。
于是,Devin重寫了測試函數(shù),使用了四個嵌套的循環(huán),這一次,它發(fā)現(xiàn)了一個bug。
接著,Devin開始調(diào)試。它在這里添加了一個print語句,來調(diào)試輸入和輸出,然后重新測試,發(fā)現(xiàn)了錯誤:代碼不應(yīng)該返回負(fù)值。
于是Devin查看了正在測試的代碼,然后添加進(jìn)了這行代碼,確保返回值是非負(fù)的。
現(xiàn)在Andrew可以確信,自己的代碼是完全正確的了!
訓(xùn)練和微調(diào)AI模型
Devin能力也在一步一步進(jìn)階。
最讓人興奮的是,它可以自己訓(xùn)練、微調(diào)模型,AI訓(xùn)AI成真了!
首先,給智能體Devin提供一個GitHub庫的鏈接(比如QLoRA——一種量化大模型的微調(diào)方法)。
Devin所做的就是,微調(diào)7B Llama模型。
接下來,就是獻(xiàn)技的時刻,Devin克隆了GitHub庫,了解如何使用readme運行,設(shè)置好所需pip的要求,查看所有的腳本語言,并開始運行。
訓(xùn)練過程中,Devin還遇到了Cuda問題(這是在開源庫中可以預(yù)料到的)。
不過這可難不倒Devin。它會自主查看英偉達(dá)環(huán)境,并找出如何重新安裝軟件包讓其成功運行。
接下來,模型訓(xùn)練開始進(jìn)行了。
可以看到損失率正在下降,程序員給出Devin正向反饋:「做的不錯」!
大約1小時后,Devin已經(jīng)順利完成幾百步訓(xùn)練,仍在進(jìn)行中...
解決開源代碼庫中的錯誤和功能請求
只要給出一個指向GitHub問題的鏈接,Devin就會執(zhí)行所需的所有設(shè)置和上下文收集了!
這位叫Tony的工程師,想一次運行一堆命令,并且希望在一個屏幕上跟蹤它們的狀態(tài),于是他找到了一個名為impro的開源工具,希望執(zhí)行這個操作。
看起來雖然impro完成了任務(wù),但狀態(tài)太模糊了。根本看不出來究竟哪些命令失敗了。
Tony想改進(jìn)這里的用戶體驗,但是自己根本不熟悉代碼,于是他想到去求助Devin。
他發(fā)現(xiàn)網(wǎng)上有人面臨同樣的問題,所以他把這個問題的鏈接給了Devin,讓它修復(fù)這個問題。
在右邊,他很清晰地看到,Devin從一個工具跳轉(zhuǎn)到了另一個工具。
它首先使用了Shell Deon CLS存儲庫,然后閱讀了自述文件和編輯器,了解了子代碼,然后,它返回Shell,安裝了所需要的依賴項。另外,Devin還打開了一個Web瀏覽器。
然后,Devin就開始編碼了!
在這個過程中,它甚至打開了一些R文檔來調(diào)試編譯器錯誤。最后,完成了任務(wù),出了一份自己做了哪些改進(jìn)的總結(jié)報告。
所以,Devin的更改有效嗎?Tony發(fā)現(xiàn),它成功了!第三個命令是成功的,他甚至可以看到狀態(tài)碼。
為成熟的生產(chǎn)存儲庫做貢獻(xiàn),修復(fù)系統(tǒng)錯誤
下面這個示例,是SWE-BENCH基準(zhǔn)測試的一部分。Devin解決了Python代數(shù)系統(tǒng)中的一個錯誤。它會自行設(shè)置代碼環(huán)境、復(fù)制錯誤、自行編碼、測試修復(fù)程序!
這位叫Neil的開發(fā)者,分享了Devin幫自己改bug的示例。
他一直在用這個名為Senpai的存儲庫,它是一個用Python編寫的代數(shù)系統(tǒng)。
但Neil發(fā)現(xiàn),取分?jǐn)?shù)的對數(shù)時,我們會得到一個無窮大的Zoo,這是絕對不可能的。
于是,他試著讓Devin來解決這個問題。
Devin在存儲庫中復(fù)現(xiàn)了Zoo的問題后,隨后,它找出了代碼中正確的那部分,添加了print語句,以便找出問題原因。
可以看到,原因就在于,整數(shù)除法會得到0,就導(dǎo)致之前取了0的對數(shù)。因此,Devin用true除法替代了整數(shù)除法。
隨后,它開始測試,確保沒有其他問題。
就這樣,Devin幫Neil節(jié)省了大量的時間。
勝任自由職業(yè)平臺Upwork的工作
Cognition的開發(fā)者You還試著在全球最大的綜合類自由職業(yè)平臺Upwork上,為Devin提供真正的工作。
沒想到,它竟可以完全勝任,看來智能體也能出來做副業(yè)了......
在Upwork上,他首先挑選了一個「用計算機(jī)視覺模型做推理」的工作。
先來看看這個任務(wù)的要求:
- 我希望利用該資源庫中的模型進(jìn)行推斷。(https://github.com/mahdi65/roadDamageDetection2020)
- 你的交付成果將是關(guān)于如何在AWS的EC2實例中進(jìn)行操作的詳細(xì)說明。
- 請?zhí)峁┠阃瓿蛇@項工作的評估報告。我不會回復(fù)沒有評估的報告。
看起來很簡單一個任務(wù),但開發(fā)者You表示,自己也不知道如何開始做。
但是交給Devin,這件事就變得容易得多了。
Devin收到請求后,先開始設(shè)置了存儲庫。然后運行中發(fā)現(xiàn)了版本控制問題,Devin自主處理并更新了代碼。
然后,Devin繼續(xù)加載并導(dǎo)入軟件包。它還從互聯(lián)網(wǎng)上下載了圖像,并運行模型。
接下來,Devin再次遇到了問題——關(guān)于打印調(diào)試,它自主修復(fù)了代碼。
最后,Devin對數(shù)據(jù)結(jié)果進(jìn)行抽樣,并編寫出一份報告。
它會一些標(biāo)有損壞道路樣本的圖像,以及詳細(xì)的text文檔。
13.86%正確率,Devin碾壓GPT-4/Cluade 3
SWE-bench是一個要求AI智能體解決開源項目(例如Django和scikit-learn)中實際GitHub問題的測試。
在評估中,Devin能夠完整地正確處理13.86%的問題,這一成績大幅領(lǐng)先于之前技術(shù)水平的1.96%。
即便是在提供了具體需要修改的文件情況下,先前最優(yōu)秀的模型也僅能處理4.80%的問題。
華人金牌程序員團(tuán)隊
Cognition AI這家正在改變世界的公司,才正式成立不到2個月,僅有10名員工,分散在紐約、硅谷,以及世界各地的Airbnb民宿中。
就這樣一個連正式辦公場地都沒有的團(tuán)隊,卻已經(jīng)從硅谷大佬Peter Thiel領(lǐng)投的Funders Fund和其他知名的投資機(jī)構(gòu)那里獲得了2100萬美元的投資,其中還包括前推特高管Elad Gil。
在如此炸裂的產(chǎn)品的背后,團(tuán)隊成員背景更是奪目耀眼。
Cognition AI的核心創(chuàng)始團(tuán)隊包括3人:CEO Scott Wu,CTO Steven Hao,CPO Walden Yan。
聯(lián)合創(chuàng)始人兼首席技術(shù)官Steven Hao ,在AI系統(tǒng)方面有著豐富經(jīng)驗,
他于2018年本科畢業(yè)于MIT計算機(jī)和數(shù)學(xué)專業(yè)。
2018年加入由Alexandr Wang創(chuàng)辦的Scale AI,是一名資深的AI系統(tǒng)工程師。
聯(lián)合創(chuàng)始人兼首席產(chǎn)品官Walden Yan ,在加入Cognition AI之前他還是哈佛大學(xué)的一名在校大學(xué)生。
作為計算機(jī)和經(jīng)濟(jì)專業(yè)本科大四在讀的學(xué)生,理論上應(yīng)該今年本科畢業(yè)。
但實際情況卻處在「保密狀態(tài)」,因為他還沒有告訴父母自己輟學(xué)的事情。(手動狗頭)
他在個人網(wǎng)站上,列出了3個自己認(rèn)為最為重要的成就:
- 是MIT PRIMES Research團(tuán)隊的成員
- 得過IOI金牌
- 創(chuàng)立DeepReason并開發(fā)了一款智能區(qū)塊鏈審計工具
聯(lián)合創(chuàng)始人兼首席執(zhí)行官Scott Wu ,是一名連續(xù)創(chuàng)業(yè)者。
在成立Cognition之前,他曾經(jīng)創(chuàng)立了一個用AI驅(qū)動的社交網(wǎng)絡(luò)平臺Lunchclub,并且也曾就讀于哈佛大學(xué)。
他的弟弟Neal Wu ,也是公司的員工。
在加入Cognition AI之前也在包括谷歌等多家公司工作過,是一名經(jīng)驗豐富的軟件工程師和銷售。
本科同樣畢業(yè)于哈佛大學(xué)計算機(jī)專業(yè)。
他們兄弟倆在非常青年時期就參加了很多國際編程比賽和科學(xué)奧賽,獲獎無數(shù)。
不僅如此,團(tuán)隊的其他成員,也都是大佬級的存在。
還有一個nobody。
其中,Andrew He從6年級開始,參加了各種數(shù)學(xué)競賽。在2014年和2015年的國際信息學(xué)奧林匹克大賽上獲得了2枚金牌。
他就讀于MIT,并于2019年畢業(yè),獲得了數(shù)學(xué)和計算機(jī)科學(xué)學(xué)士學(xué)位。
如此豐富的編程競賽經(jīng)歷,對于他們開發(fā)這個編程AI智能體有著非常大的幫助。
眾所周知,編程競賽的核心就是要迅速準(zhǔn)確地解決編程難題,強(qiáng)調(diào)快速解決復(fù)雜問題的能力,而且對于創(chuàng)新的解決問題的思路有著很高的要求。
在CEO Scott Wu看來,團(tuán)隊獨特的背景讓他們在這個領(lǐng)域有非常強(qiáng)大的優(yōu)勢。
將AI培養(yǎng)成程序員,實際上是一個復(fù)雜的算法挑戰(zhàn),這需要AI系統(tǒng)能夠做出復(fù)雜的決策,并能預(yù)見未來幾步,從而選擇正確的路徑。
這幾乎就是我們多年來一直在大腦進(jìn)行的一場場比賽?,F(xiàn)在,我們需要用AI系統(tǒng)來參加這些比賽。
Cognition AI首款產(chǎn)品Devin的最大突破在于大大提升計算機(jī)推理和規(guī)劃能力。
它要求AI系統(tǒng)不僅要預(yù)測句子中的下一個詞或代碼行的下一個片段,還能像人類一樣進(jìn)行思考,獲得解決最終問題最為合理的方法和路徑。
而行業(yè)共識也認(rèn)為,AI的推理和規(guī)劃能力將是AI下一步產(chǎn)生最重要突破最有可能的方向。
Devin在接受用戶用自然語言提出的任務(wù)之后,不僅能夠自主開始工作并完成任務(wù),還會向用戶報告其計劃,并實時展示正在使用的命令和代碼。
如果用戶發(fā)現(xiàn)過程中的問題,可以即時提供反饋。它會在任務(wù)進(jìn)行中立即調(diào)整。
而Devin最大的亮點在于,大多數(shù)現(xiàn)有的AI系統(tǒng)在處理這類長期任務(wù)時往往難以保持一致性和專注,但它能夠在完成數(shù)百上千任務(wù)時始終不偏離目標(biāo)。
其他計算機(jī)科學(xué)家或者資深程序員在試用過Devin之后認(rèn)為,它已經(jīng)不僅僅是一個編程助手,簡直是一個可以獨立工作的員工。
CEO Wu并沒有詳細(xì)說明他們的智能體背后使用的AI技術(shù),只是籠統(tǒng)地解釋說,團(tuán)隊找到了將大語言模型(例如OpenAI的GPT-4)與強(qiáng)化學(xué)習(xí)技術(shù)相結(jié)合的獨特方法。