互聯(lián)網(wǎng)甚至整個科技圈,終于迎來了又一次全民意義上的沸騰。ChatGPT為代表的AI技術,在大眾層面引起熱議的同時,又在科技圈、創(chuàng)投圈都蕩起波瀾。
事實上,ChatGPT或許代表著未來新時代映射進現(xiàn)實的前兆??挡ㄖ芷诘拇_已經到來,AI技術是否會是開啟下一周期的那把鑰匙?其商業(yè)落地與創(chuàng)業(yè)機會又有哪些?作為首批關注AIGC的投資人,銀杏谷資本企服高級投資經理鐘偉成的視野,落在了“AI原生”上。
01.GPT-4的前世今生
大眾熱議的ChatGPT,熱度貫穿了整個資本市場的2023。而在3月14號OpenAI再度發(fā)布新一代語言模型GPT-4后,在商業(yè)層面有了共振。
不過短短幾天,微軟宣布Office全家桶集成GPT相關能力,Github發(fā)布基于GPT-4的新一代代碼生成工具Copilot X。而ChatGPT同樣發(fā)布了插件功能——ChatGPT Plugins,賦予ChatGPT調用第三方應用、檢索最新網(wǎng)絡信息、運行計算的能力。
似乎一個嶄新的商業(yè)時代已經到來。而回顧GPT發(fā)展史,轉折點早已埋下。技術定義GPT,即一種自然語言處理模型,通過訓練語言模式來生成自然語言文本,從GPT-1到GPT-3從發(fā)展路徑來說,是更大參數(shù)量和數(shù)據(jù)集和變換器算法迭代而已。
GPT-3可以視為一個發(fā)展路徑的轉折點。其直接帶火了“提示學習”這一技術范式,將訓練范式從“預訓練+微調”引導向了“預訓練 + Prompting”。所謂的Prompt理念,是認為預訓練模型本身就可以完成很多任務,只需要在輸入的時候對模型進行引導。
這成了打開魔盒的那把鑰匙。如果說,GPT-3還存在會生成有害輸出、無法理解用戶意圖的問題,GPT-3.5演化,則是引入training on code及引導性微調,來規(guī)避這一問題。
精妙之處在于,人類代碼存在邏輯的貫通性,而AI模型只需要在代碼上進行預訓練,就能獲得邏輯能力的強化。比如ChatGPT即能使用CoT(Chain-of-Thought即思維鏈)進行復雜推理。
細數(shù)InstructGPT、Text-Dav-002、ChatGPT等基于GPT-3.5技術建立的模型,都進行了對應的能力微調。InstructGPT以針對特定應用場景編寫提示的方式來指導模型生成,大幅降低有害、錯誤的輸出結果;Text-Dav-002是有監(jiān)督指令微調,以犧牲上下文的能力獲得零樣本能力;ChatGPT則是通過RHLF犧牲上下文學習的能力換取建模對話歷史的能力。
換句話說,就是結合監(jiān)督學習與強化學習,加入了人類反饋強化學習,將人類期待的結果反饋給模型,并且增加了安全機制。共性與個性之間,或許就是ChatGPT能夠脫穎而出引起大眾共鳴的關鍵。
但這并不意味著,ChatGPT已經是終點。
不難看出,ChatGPT的技術能力基礎,是LLM GPT-3.5。在投喂足量人工標注數(shù)據(jù)后,該模型已經學會人們對于不同任務的習慣說法,再通過RHLF中的reward model(獎勵模型)正反饋給算法模型關于回答評價的好壞,為ChatGPT樹立其所謂的正確價值觀。
但問題也足夠明顯——投喂的訓練數(shù)據(jù)存在滯后性,使得ChatGPT無法正確回應時事問題,并且準確性存在一本正經胡說八道的可能,需要用強邏輯語料進行邏輯性調教,回答內容較為冗長等等。
而GPT-4的出現(xiàn),的確為想象力打開了更多空間。無論是科技,還是商業(yè)。來看看它有什么魔力吧:從文本到圖像理解的跨越,堪稱升維;算法迭代,回答準確性顯著提高;上下文理解與生成能力同步提升;最為關鍵的,更為可控的回答風格。
當然,目前GPT-4的圖像輸入展示仍是研究“樣品”預覽,真正的成果尚未公開,回答依舊有錯誤,也無法完成回應長期任務、無法應對時新問題。但在復雜問題處理和回答風格定制等方面,已經有長足進步。
02.AIGC,如何走入商業(yè)實踐?
OpenAI宣布推出Plugins(插件功能),被不少人視為AI領域的“App Store時刻”。通過調用第三方應用程序API,用戶可以在ChatGPT獲得實時信息、知識庫信息的檢索,也能進行外賣、訂票等操作。
這對現(xiàn)有App應用的影響,不可謂不大。這意味著,AI可以直接觸達應用平臺數(shù)據(jù),跳過應用原本的操作界面和中間的工程架構設計。那些產品功能比較單一、產品體驗不夠多元化的應用將會受到很大的影響。
當然,這還停留在商業(yè)暢想階段。更值得關注的,是生成式AI技術的商業(yè)落地進展。嚴格來說,在2020年以前,生成式AI在各個領域都處于初級嘗試階段,或許文本領域存在垃圾信息識別、基礎回答等嘗試,但并不具備“性感”吸引力。
自2020年開始,大語言模型得以實現(xiàn)的能力,越來越多元與成熟。可以實現(xiàn)基礎文案撰寫、可以生成多行代碼,再到2022年,普遍可以獲得更成熟的文本與代碼,并且蔓延到了圖像領域。鐘偉成認為,在他的視野中,可能不用等到2025年,我們就能夠看到基于文本生成視頻、3D模型的AI技術在商業(yè)領域得到應用。
動動手指或者說說話就能造出游戲的未來,或許就落在生成式AI上。從技術棧來看,生成式AI也存在應用層、模型層、基礎設施三個板塊。
應用層:以自研大模型或調用第三方模型API的方式,獲取大模型技術能力,制作成面向用戶的應用軟件。
模型層:以商業(yè)化API接口或開源大模型的形式,為AI應用提供核心技術能力。
基礎設施:芯片等硬件制造商,或者提供云計算服務云廠商,負載著生成式AI模型的訓練和推理。
目前來說,不同層級的玩家,面臨著截然不同的商業(yè)現(xiàn)狀。最為百花齊放的自然是應用層。就國際來看,基于文本、圖像、視頻、代碼、演講、游戲、音樂等不同領域的AIGC應用。
需要承認,AI原生應用,借助大模型能力,有了“顛覆”傳統(tǒng)應用市場的機會。大模型以API或者開源的方式,也為應用廠商之間的差異性提供了包容度。
為此,鐘偉成介紹了一家營銷文案生成公司Jasper.AI,其AI能力基于微調版GPT-3的API,產品能力包括預定義模版完成內容的Starter、能夠以80%補全率幫助用戶寫作的BossMode、定制化生成文案的Jasper for Business等。
這家成立于2021年1月的公司,不到1年就實現(xiàn)了4000萬美元的ARR(年度經常性收入),而到2022年底,其付費用戶已經接近十萬,年收入達7500萬美元。不過鐘偉成也指出,因為沒有自研大模型所鑄造的技術壁壘,Jasper依舊存在商業(yè)危機。
模型層來說,大模型提供商現(xiàn)狀并不理想。重投入、低回報使得玩家并不多,目前獨一檔的GPT系列模型作為閉源模型,帶動了應用繁榮之后,也讓各類開源模型獲得資本關注,開始加足馬力追趕。
相對而言,模型層的API生態(tài)已經開始繁榮,而處于安全考慮,大模型私有化部署的需求,也開始涌現(xiàn)。除此以外,Anthropic、Cohere等公司自行構建的大語言模型,由于數(shù)據(jù)集和模型架構與GPT模型的構建理念差異不大,通用語言大模型的未來格局可能會是一超多強的。
AIGC浪潮真正的大贏家,出現(xiàn)在AI基礎設施的玩家中。不得不承認,每秒浮點運算(FLOPS)是生成式AI的命脈,這意味著無論是代表運算速度性能的芯片硬件,還是提供云計算的云廠商,都在整個過程中獲得有商業(yè)壁壘的持續(xù)利益。
2022年到2023年,國內市場的變化,基本反映了整個資本、商業(yè)市場對AIGC從觀望到追逐的看法轉變。但鐘偉成認為復刻“中國版ChatGPT”不應該是國內語言大模型公司的創(chuàng)業(yè)目標。
ChatGPT的應用形態(tài)很容易復制,指令微調、RLHF也不會太難,真正難的是底層語言模型涌現(xiàn)能力的復現(xiàn)。鐘偉成指出,模型的涌現(xiàn)能力其實在訓練GPT-3.5的時候,就已經存在于語言模型中了,ChatGPT只不過是激發(fā)模型潛能的一種方式。大眾和許多創(chuàng)業(yè)者的視角都集中在復刻“ChatGPT”上,或許是某種意義上的本末倒置。
如果我們關注國產ChatGPT的進展,應該關注的是各種“類ChatGPT”產品底層的語言大模型離GPT-3.5的涌現(xiàn)能力還差多遠。在一個沒有涌現(xiàn)能力的LLM上套一個ChatGPT的殼,也只不過是東施效顰,但這也是市面中普遍存在的做法。
03.生成式AI,迎來三波浪潮
AIGC的發(fā)展浪潮,可以分段為三個時代。
2017到2021的煉大模型時代,自2019年7月微軟向OpenAI投資10億美元開始,全球開始了基礎大模型的軍備競賽,國內的華為、智源、達摩院、百度等云計算提供商和AI研究院先后發(fā)布了自家的預訓練大模型,并不斷從NLP延伸出了雙語、CV、跨模態(tài)等大模型,整體方向還是在追逐大參數(shù)量,主要目的還是以學研結果、大廠防御性戰(zhàn)略為主。
2020到2023的商業(yè)API時代,本質是煉制大模型成本過高,大部分AIGC應用公司只能通過API獲取大模型能力。GPT-3的出現(xiàn),是API生態(tài)建立的標志,涌現(xiàn)出Jasper.ai、Copy.ai等公司,并且傳統(tǒng)軟件開始嵌入AIGC的技術能力。
而這一階段的轉折節(jié)點,同樣由Open AI發(fā)起——2021年其發(fā)布CLIP模型,預訓練大模型領域由單模態(tài)走向多模態(tài)。ChatGPT的出現(xiàn),則定義了多輪對話,就是人機交互界面的一種未來可能。
而在2022開始到未來的一段時間內,將可能進入“專屬大模型”時代。一方面,大型企業(yè)將會探索大模型私有化部署,圍繞LLM(Large Language Model,大型語言模型)打造新技術棧是必然。另一方面,又可能會產生以ChatBot為基座的新一代操作系統(tǒng),成為人機協(xié)作的交互入口,其中間雜著AI原生軟件與傳統(tǒng)軟件之間的對抗。
這一過程中,行業(yè)通用的基礎大模型由于煉制和微調的成本下降,將會不斷涌現(xiàn)。而貫穿大模型訓練過程的各類AI infra技術的需求將被進一步激發(fā),又是無限的商業(yè)可能。
鐘偉成認為,未來商業(yè)一個明顯的能力差異,是AI原生。AI原生與傳統(tǒng)軟件集成AIGC能力的區(qū)別,是一種生產方式代際更替間的差異。AIGC大幅度提升了信息產業(yè)的生產效率,可以定義為另一次技術革命,必然帶來產業(yè)勞動力與生產方式的遷移。
必須清醒地認識到,國內距離Open AI的技術差距,還很明顯。技術路徑雖然較為清晰,但實際應用ChatGPT、GPT-4的技術至今都沒有完全開源,只能是盲人摸象式探索。而模型的人工調教過程也是一種積累方面的壁壘,有論文指出,模型至少要達到620億參數(shù)量后,才可能訓練出CoT思維鏈能力,這一點需要時間和金錢的雙重投入。
而Open AI已經在謀求更遠。從GPT3開始,其關注的核心,是通過用戶所進行的prompt與微調數(shù)據(jù),來形成自己的SFT數(shù)據(jù)集,以進一步完善模型的業(yè)務效果準確性。“所以我們做不出中文語言大模型的時候,抱怨說中文語料質量不如英文語料意義并不大,Open AI已經過了追求事實數(shù)據(jù)的階段?!痹阽妭コ煽磥?,指令數(shù)據(jù)的收集,又將是Open AI下一個壁壘。
作為銀杏谷資本的投資人,鐘偉成也透露了自身所看好的幾個生成式AI創(chuàng)業(yè)方向:比如能夠嵌入或者改造傳統(tǒng)工作流的生成式AI應用,比如基于多模態(tài)大模型的端到端應用,再比如能夠幫助用戶高效整合知識來構建思考框架和激發(fā)靈感的垂直行業(yè)應用等。他強調:“生成式AI的價值并不僅僅體現(xiàn)在內容生成,關鍵信息要素的“提煉與合成”將釋放更大的潛在價值!”
如果跳脫應用本身,模型預訓練/推理算法優(yōu)化、向量數(shù)據(jù)庫、AI芯片等AI基礎設施,即所謂的AI infra,也是其所看好的方向。
除此以外,“按照三次浪潮的洞察來看,大模型私有化部署或許不是一種很好的商業(yè)模式但中短期來看也是一個肉眼可見的趨勢”。
比如為金融、能源等擁有海量業(yè)務數(shù)據(jù)、算力及付費能力的B端企業(yè),提供專屬大模型的訓練、微調迭代及托管服務,以ChatBot的人機交互界面為操作中心重構公司業(yè)務流程,并在基礎大模型基礎上開發(fā)生成式AI應用,搭配plugins調用其他軟件的數(shù)據(jù)。“是不是很眼熟?有些類似當年的中臺、PaaS平臺,卻又完全不一樣?!?。