“99%的行業(yè)大模型都可能被替代”,百川智能聯(lián)合創(chuàng)始人、聯(lián)席總裁洪濤一語(yǔ)落地,震驚四座。
百模大戰(zhàn)中,行業(yè)大模型一直都是焦點(diǎn)所在,原因歸結(jié)起來(lái)有兩點(diǎn),一是和研發(fā)廠(chǎng)商的技術(shù)、業(yè)務(wù)結(jié)合快,二是需求明確,實(shí)際落地速度與商業(yè)化遠(yuǎn)超于通用大模型。
但這樣的行業(yè)大模型通常得靠微調(diào)、精調(diào)的方式來(lái)完成,弊端也十分顯而易見(jiàn),訓(xùn)練時(shí)間長(zhǎng)、部署成本高,還涉及企業(yè)數(shù)據(jù)隱私問(wèn)題。
基于此,國(guó)內(nèi)外都在找尋最優(yōu)解,并形成了兩種探索路徑:
一種以Pinecone、Zilliz為代表的數(shù)據(jù)庫(kù)公司,帶火的向量數(shù)據(jù)庫(kù)路線(xiàn);一種是OpenAI引領(lǐng)起的RAG(檢索增強(qiáng)生成)路線(xiàn)。
若以形象的比喻來(lái)解釋?zhuān){(diào)、向量數(shù)據(jù)庫(kù)和RAG三者的區(qū)別,大模型微調(diào)好比供一個(gè)孩子從小學(xué)念到大學(xué)甚至研究生;向量數(shù)據(jù)庫(kù)和RAG則更像開(kāi)卷考試,不需要學(xué)習(xí)理解就能給出答案。
簡(jiǎn)而言之,向量數(shù)據(jù)庫(kù)和RAG都是在不更改模型的基礎(chǔ)上,通過(guò)一些“外掛”的手段來(lái)提升大模型應(yīng)用的準(zhǔn)確性,以此來(lái)彌補(bǔ)大模型自身存在的幻覺(jué)、時(shí)效性差、缺乏專(zhuān)業(yè)領(lǐng)域知識(shí)等缺陷。
盡管是兩條路徑選擇,但向量數(shù)據(jù)庫(kù)和RAG也不是完全對(duì)立,向量數(shù)據(jù)庫(kù)中需要檢索,RAG過(guò)程中也存在向量化階段,只不過(guò)側(cè)重點(diǎn)有所不同。
在國(guó)內(nèi),騰訊更加側(cè)重向量數(shù)據(jù)庫(kù)方向,并將其升至戰(zhàn)略地位,做出了“大模型是計(jì)算引擎,改變的是計(jì)算方式,存儲(chǔ)需要向量數(shù)據(jù)庫(kù)”的判斷。
12月,百川智能開(kāi)放基于搜索增強(qiáng)的Baichuan2-Turbo系列API,結(jié)合RAG和向量數(shù)據(jù)庫(kù)兩條路線(xiàn),打出了一套“大模型+超長(zhǎng)上下文窗口+搜索增強(qiáng)知識(shí)庫(kù)”的組合拳。
百川智能創(chuàng)始人、CEO王小川也給出了自己的論斷:“大模型+搜索增強(qiáng)是大模型時(shí)代的新計(jì)算機(jī),大模型類(lèi)似于計(jì)算機(jī)的CPU,互聯(lián)網(wǎng)實(shí)時(shí)信息與企業(yè)完整知識(shí)庫(kù)共同構(gòu)成了大模型時(shí)代的硬盤(pán)”。
實(shí)驗(yàn)證明RAG+大模型的效果要好于精調(diào)大模型,來(lái)自微軟論文
“從方方面面來(lái)看,搜索增強(qiáng)要比精調(diào)行業(yè)大模型更具性?xún)r(jià)比”,王小川道。
光錐智能在溝通會(huì)現(xiàn)場(chǎng)對(duì)話(huà)王小川,深入了解,作為較早選擇RAG和向量數(shù)據(jù)庫(kù)路線(xiàn)的企業(yè),如何在技術(shù)上進(jìn)行思考和突破?又如何在行業(yè)應(yīng)用中落地?
核心觀(guān)點(diǎn)如下:
1、搜索增強(qiáng)是大模型走向?qū)嵱玫牡谝徊?,甚至是最關(guān)鍵的一步。
2、大模型+搜索構(gòu)成完整技術(shù)棧,實(shí)現(xiàn)了大模型和領(lǐng)域知識(shí)、全網(wǎng)知識(shí)的全新鏈接。
3、大模型+搜索增強(qiáng)是大模型時(shí)代的新計(jì)算機(jī),大模型類(lèi)似于CPU,互聯(lián)網(wǎng)實(shí)時(shí)信息與企業(yè)完整知識(shí)庫(kù)是硬盤(pán)。
4、避免項(xiàng)目化,用產(chǎn)品化取代項(xiàng)目化,用定制化的能力,實(shí)現(xiàn)企業(yè)的低成本定制。
5、中國(guó)大模型技術(shù)進(jìn)化比想象中要快得多,追趕方向主要集中在文本領(lǐng)域。
光錐智能
63
以下為對(duì)話(huà)實(shí)錄:
Q:在RAG提出之前,行業(yè)有哪些解決大模型缺陷的手段?
王小川:業(yè)界探索了多種解決方案,包括擴(kuò)大參數(shù)規(guī)模、擴(kuò)展上下文窗口長(zhǎng)度、為大模型接入外部數(shù)據(jù)庫(kù),使用特定數(shù)據(jù)訓(xùn)練或微調(diào)垂直行業(yè)大模型等。這些路線(xiàn)各有優(yōu)勢(shì),但也都存在自身的局限。
例如,持續(xù)擴(kuò)大模型參數(shù)雖然能夠不斷提升模型智能,但是需要海量數(shù)據(jù)和算力的支撐,巨額的成本對(duì)中小企業(yè)非常不友好,而且完全依靠預(yù)訓(xùn)練也很難解決模型的幻覺(jué)、時(shí)效性等問(wèn)題。所以,業(yè)界亟需找到一條集諸多優(yōu)勢(shì)于一體的路徑,將大模型的智能切實(shí)轉(zhuǎn)化為產(chǎn)業(yè)價(jià)值。
Q:百川智能提出的“搜索增強(qiáng)”概念與大火的RAG技術(shù)思路十分契合,如何理解“大模型+搜索”?
王小川:大模型+搜索增強(qiáng)是大模型時(shí)代的新計(jì)算機(jī),大模型類(lèi)似于計(jì)算機(jī)的CPU,通過(guò)預(yù)訓(xùn)練將知識(shí)內(nèi)化在模型內(nèi)部,然后根據(jù)用戶(hù)的Prompt生成結(jié)果;上下文窗口可以看做計(jì)算機(jī)的內(nèi)存,存儲(chǔ)了當(dāng)下正在處理的文本;互聯(lián)網(wǎng)實(shí)時(shí)信息與企業(yè)完整知識(shí)庫(kù)共同構(gòu)成了大模型時(shí)代的硬盤(pán)。
基于這一技術(shù)理念,百川智能以Baichuan2大模型為核心,將搜索增強(qiáng)技術(shù)與大模型深度融合,結(jié)合此前推出的超長(zhǎng)上下文窗口,構(gòu)建了一套大模型+搜索增強(qiáng)的完整技術(shù)棧,實(shí)現(xiàn)了大模型和領(lǐng)域知識(shí)、全網(wǎng)知識(shí)的全新鏈接。
Q:通過(guò)搜索增強(qiáng)如何來(lái)解決大模型現(xiàn)在存在的問(wèn)題?
王小川:搜索增強(qiáng)能夠有效解決幻覺(jué)、時(shí)效性差、專(zhuān)業(yè)領(lǐng)域知識(shí)不足等阻礙大模型應(yīng)用的核心問(wèn)題。一方面,搜索增強(qiáng)技術(shù)能有效提升模型性能,并且使大模型能“外掛硬盤(pán)”,實(shí)現(xiàn)互聯(lián)網(wǎng)實(shí)時(shí)信息+企業(yè)完整知識(shí)庫(kù)的“全知”。
另一方面,搜索增強(qiáng)技術(shù)還能讓大模型精準(zhǔn)理解用戶(hù)意圖,在互聯(lián)網(wǎng)和專(zhuān)業(yè)/企業(yè)知識(shí)庫(kù)海量的文檔中找到與用戶(hù)意圖最相關(guān)的知識(shí),然后將足夠多的知識(shí)加載到上下文窗口,借助長(zhǎng)窗口模型對(duì)搜索結(jié)果做進(jìn)一步的總結(jié)和提煉,更充分地發(fā)揮上下文窗口能力,幫助模型生成最優(yōu)結(jié)果,從而實(shí)現(xiàn)各技術(shù)模塊之間的聯(lián)動(dòng),形成一個(gè)閉環(huán)的強(qiáng)大能力網(wǎng)絡(luò)。
Q:在技術(shù)路徑上,“大模型+搜索”是怎樣實(shí)現(xiàn)的?
王小川:在長(zhǎng)上下文窗口和向量數(shù)據(jù)庫(kù)的基礎(chǔ)上,將向量數(shù)據(jù)庫(kù)升級(jí)為搜索增強(qiáng)知識(shí)庫(kù),極大提升了大模型獲取外部知識(shí)的能力,并且把搜索增強(qiáng)知識(shí)庫(kù)和超長(zhǎng)上下文窗口結(jié)合,讓模型可以連接全部企業(yè)知識(shí)庫(kù)以及全網(wǎng)信息,能夠替代絕大部分的企業(yè)個(gè)性化微調(diào),以此來(lái)解決99%企業(yè)知識(shí)庫(kù)的定制化需求。
但在實(shí)現(xiàn)過(guò)程中,存在著諸多技術(shù)難題。搜索增強(qiáng)方面,用戶(hù)的需求表達(dá)不僅口語(yǔ)化、多元化,并且還與上下文強(qiáng)相關(guān),因此用戶(hù)需求(Prompt)與搜索的對(duì)齊成為了大模型獲取外部知識(shí)過(guò)程中最為核心的問(wèn)題。為了更精準(zhǔn)地理解用戶(hù)意圖,百川智能使用自研大語(yǔ)言模型對(duì)用戶(hù)意圖理解進(jìn)行微調(diào),能夠?qū)⒂脩?hù)連續(xù)多輪、口語(yǔ)化的Prompt信息轉(zhuǎn)換為更符合傳統(tǒng)搜索引擎理解的關(guān)鍵詞或語(yǔ)義結(jié)構(gòu)。
百川智能還參考Meta的CoVe(Chain-of-Verification Reduces Hallucination in Large Language Models)技術(shù),將真實(shí)場(chǎng)景的用戶(hù)復(fù)雜問(wèn)題拆分成多個(gè)獨(dú)立可并行檢索的子結(jié)構(gòu)問(wèn)題,從而讓大模型可以針對(duì)每個(gè)子問(wèn)題進(jìn)行定向的知識(shí)庫(kù)搜索,提供更加準(zhǔn)確和詳盡的答案。同時(shí)通過(guò)自研的TSF(Think Step-Further)技術(shù),百川智能的知識(shí)庫(kù)可以推斷出用戶(hù)輸入背后深層的問(wèn)題,更精準(zhǔn)的理解用戶(hù)的意圖,進(jìn)而引導(dǎo)模型回答出更有價(jià)值的答案,為用戶(hù)提供全面和滿(mǎn)意的輸出結(jié)果。
Q:大模型+搜索的測(cè)試和運(yùn)行效果達(dá)到了什么樣的水平?
王小川:百川智能通過(guò)長(zhǎng)窗口+搜索增強(qiáng)的方式,在192K長(zhǎng)上下文窗口的基礎(chǔ)上,將大模型能夠獲取的原本文本規(guī)模提升了兩個(gè)數(shù)量級(jí),達(dá)到5000萬(wàn)tokens。并且通過(guò)了業(yè)內(nèi)公認(rèn)最權(quán)威的大模型長(zhǎng)文本準(zhǔn)確度測(cè)試——“大海撈針”測(cè)試,對(duì)于192k token以?xún)?nèi)的請(qǐng)求,可以實(shí)現(xiàn)100%回答精度。
對(duì)于192k token以上的文檔數(shù)據(jù),百川智能結(jié)合搜索系統(tǒng),將測(cè)試集上下文長(zhǎng)度擴(kuò)展到 5000w tokens。分別評(píng)測(cè)了純向量檢索和稀疏檢索+向量檢索的檢索效果,測(cè)試結(jié)果顯示,稀疏檢索+向量檢索的方式可以實(shí)現(xiàn)95%的回答精度,即使在5000萬(wàn)tokens的數(shù)據(jù)集中也可以做到接近全域滿(mǎn)分,而單純的向量檢索只能實(shí)現(xiàn) 80%的回答精度。
Q:百川智能在推動(dòng)2B落地過(guò)程中,發(fā)現(xiàn)了行業(yè)大模型的哪些問(wèn)題?行業(yè)大模型為什么推進(jìn)不下去?
王小川:行業(yè)大模型雖然是針對(duì)行業(yè)中需求而誕生的,但是現(xiàn)狀是概念炒得很熱,卻沒(méi)有良好的實(shí)踐,面臨重重困難。
行業(yè)內(nèi)提出了L0、L1的概念,L0是標(biāo)準(zhǔn)模型,L1是指在上面經(jīng)過(guò)垂直的領(lǐng)域數(shù)據(jù)進(jìn)行改造。普通的改造有兩個(gè)做法,一個(gè)是SFT(注:監(jiān)督微調(diào),通常在預(yù)訓(xùn)練的大語(yǔ)言模型上使用)一個(gè)是Post-train(注:模型訓(xùn)練后的調(diào)參、壓縮、部署階段。)行業(yè)大模型的改造跟訓(xùn)練模型是一個(gè)事情,雖然SFT下降了1—2個(gè)數(shù)量級(jí)的難度,技術(shù)實(shí)現(xiàn)上依然很難,還需要模型公司的人才介入。對(duì)企業(yè)來(lái)說(shuō),這是一個(gè)巨大的挑戰(zhàn)和資源消耗,而一旦開(kāi)始就需要GPU算力的支撐,做訓(xùn)練而不是推理,成本非常高。盡管投入大,但訓(xùn)練模型就跟“煉丹”一樣,不能保證效果,還有可能會(huì)下降。再有,一旦數(shù)據(jù)或者算法更新了,企業(yè)就得再重訓(xùn)一次。當(dāng)數(shù)據(jù)發(fā)生變化,需要引進(jìn)實(shí)時(shí)數(shù)據(jù),模型基座需要升級(jí)時(shí),之前的訓(xùn)練又會(huì)徹底歸零,還得重來(lái)一次。
我們不完全否定做行業(yè)大模型這件事,但是依然覺(jué)得在大部分場(chǎng)景下,搜索增強(qiáng)是可以替代行業(yè)大模型。
Q:為什么說(shuō)搜索增強(qiáng)可以替代行業(yè)大模型?搜索增強(qiáng)才是走向應(yīng)用的關(guān)鍵?
王小川:大家都在呼吁大模型要走向?qū)嵱煤吐涞兀诮裉?,尤其從?guó)內(nèi)來(lái)看,搜索增強(qiáng)才是大模型走向?qū)嵱玫牡谝徊?,甚至是最關(guān)鍵的一步,沒(méi)有搜索增強(qiáng)的大模型在企業(yè)里沒(méi)法落地。
用知識(shí)庫(kù)加上搜索增強(qiáng)之后,直接把系統(tǒng)掛上去,即插即用,把“硬盤(pán)”掛上去就可以用了,并且搜索的穩(wěn)定性也會(huì)好很多,避免原有做Post-train或SFT的時(shí)候可靠性、穩(wěn)定性都不夠,現(xiàn)在不管用向量檢索,還是用稀疏檢索都能很大程度提升。畢竟剛才提到原來(lái)知識(shí)庫(kù)拖進(jìn)去,訓(xùn)練完了,只要發(fā)現(xiàn)數(shù)據(jù)更新就得重新訓(xùn)。現(xiàn)在用“硬盤(pán)”掛接方式即插即用,避免了原來(lái)模型升級(jí)的時(shí)候,模型跟你的體制是分離的,模型升級(jí)模型的,硬盤(pán)升級(jí)硬盤(pán)的。比現(xiàn)有訓(xùn)練行業(yè)模型,用搜索增強(qiáng)+大模型的方式會(huì)帶來(lái)很大優(yōu)勢(shì)。
Q:搜索增強(qiáng)能撬動(dòng)哪些行業(yè)?將帶來(lái)哪些新的改變?
王小川:大模型+搜索增強(qiáng)解決方案解決掉幻覺(jué)和時(shí)效性問(wèn)題后,有效提升了大模型的可用性,拓展了大模型能夠覆蓋的領(lǐng)域,例如金融、政務(wù)、司法、教育等行業(yè)的智能客服、知識(shí)問(wèn)答、合規(guī)風(fēng)控、營(yíng)銷(xiāo)顧問(wèn)等場(chǎng)景。
一個(gè)是大量文本數(shù)據(jù)的,有文本數(shù)據(jù)的,需要把文字的know how去做處理的,第二個(gè)是跟客戶(hù)打交道的,他需要跟客戶(hù)溝通,比如客服的場(chǎng)景,或者回答客戶(hù)問(wèn)題的,這兩個(gè)場(chǎng)景比較集中,發(fā)揮大模型的兩個(gè)優(yōu)勢(shì),有無(wú)限供給的能力。
Q:百川智能商業(yè)化進(jìn)展到了什么階段?如何思考定制化和產(chǎn)品化的關(guān)系?
王小川:在商業(yè)化線(xiàn)索溝通中,百川智能發(fā)現(xiàn),前期很多客戶(hù)想了解大模型,很多人來(lái)問(wèn)大模型到底是什么,能干什么。而最近兩個(gè)月,客戶(hù)的問(wèn)題越來(lái)越具體,已經(jīng)有一些場(chǎng)景感受到能用大模型了。但是解決的時(shí)候比較痛苦,最基礎(chǔ)的是微調(diào),狠一點(diǎn)的 SFT、Post-Training 都會(huì)提,但這些其實(shí)都很重。我們現(xiàn)在做這件事的目的就是告訴客戶(hù),我能快速地落地到你的實(shí)際應(yīng)用去,所以現(xiàn)在無(wú)論是私有化場(chǎng)景的,還是API場(chǎng)景的,很多客戶(hù)都在溝通,我們這次發(fā)布的產(chǎn)品就是解決他們這個(gè)問(wèn)題。
所謂定制化,customize,更準(zhǔn)確地說(shuō)是個(gè)性化,客戶(hù)天生有個(gè)性化的需求。百川希望避免的,是項(xiàng)目化,用產(chǎn)品化取代項(xiàng)目化,是指產(chǎn)品具有定制化的能力,能夠?qū)崿F(xiàn)企業(yè)的低成本定制。
核心還是成本,客戶(hù)成本高,項(xiàng)目利潤(rùn)低。相對(duì)能盈利的2B公司,賣(mài)的大多是產(chǎn)品,而大多數(shù)定制化是項(xiàng)目。搜索增強(qiáng)的完整技術(shù)棧,目的就是讓API外掛企業(yè)知識(shí)庫(kù)實(shí)現(xiàn)定制化,是一款產(chǎn)品,可配置、可調(diào)整。我們也希望在為私有化客戶(hù)做定制化的時(shí)候,用產(chǎn)品組合的方式來(lái)做,而不是用全都重新開(kāi)發(fā)一遍的方式做。
Q:百川智能作為大模型浪潮的親歷者,回顧這一年,經(jīng)歷了哪些階段?
王小川:中國(guó)現(xiàn)在來(lái)講總的分成三個(gè)階段。
第一個(gè)階段是恐慌期,OpenAI發(fā)布了ChatGPT后,中國(guó)公司還沒(méi)有,數(shù)據(jù)飛輪美國(guó)先跑起來(lái),那時(shí)大家都在討論是不是AGI要來(lái)了;
第二個(gè)階段是投入期,比如我開(kāi)始做百川智能,大家都開(kāi)始動(dòng)起來(lái)了,不斷地有人加入進(jìn)來(lái),所有的關(guān)注點(diǎn)都在大模型上;
第三個(gè)階段是高速迭代期,無(wú)論是資本、學(xué)術(shù)還是業(yè)界,每天都能看到新的進(jìn)展,我們的技術(shù)人員每天都在跟進(jìn)最新的東西,讓自己不斷迭代和改進(jìn),行業(yè)中的發(fā)展速度其實(shí)超出外界媒體和資本圈的看法,目前還是在快速迭代。
Q:如果從技術(shù)視角看,中國(guó)的大模型更新迭代有哪些特點(diǎn)?
王小川:首先,中國(guó)大模型技術(shù)進(jìn)化比想象中要快得多。剛開(kāi)始大家都覺(jué)得美國(guó)的優(yōu)勢(shì)特別明顯,我們追不上。但后來(lái)包括百川智能在內(nèi)的各家大模型出來(lái)以后,才發(fā)現(xiàn)在有些場(chǎng)景中比GPT-3.5甚至4還要好一些,這是已經(jīng)發(fā)生的事實(shí)。比如百川智能,6月份發(fā)第一款模型,7月份發(fā)第二款,8月份發(fā)500億參數(shù),一直在往前進(jìn)行中,在開(kāi)源領(lǐng)域還是美國(guó)的替代產(chǎn)品。
第二個(gè)特點(diǎn)是,國(guó)內(nèi)追趕的方向還是集中在文本領(lǐng)域。文本代表著智力化水平,我們認(rèn)為在追趕智力水平上,把文本放在第一位的公司,是在朝著長(zhǎng)遠(yuǎn)方向走。GPT到GPT-4也才開(kāi)始有了GPT-4V多模態(tài),所以那些考慮音頻、圖像、視頻的公司,這個(gè)時(shí)候反而不是在一個(gè)方向競(jìng)爭(zhēng)。
我估計(jì)中國(guó)公司未來(lái)有彎道超車(chē)的機(jī)會(huì),因?yàn)槲艺J(rèn)為對(duì)于文本方向的追趕、大模型智力的提升是行業(yè)最應(yīng)該關(guān)注的事情,包括長(zhǎng)窗口、參數(shù)量大的多模態(tài)(今天所說(shuō)的群體智能)都是在朝著這個(gè)方向努力。雖然不只有多模態(tài)一條路,但多模態(tài)是離應(yīng)用最近的一件事,當(dāng)中國(guó)一頭扎進(jìn)應(yīng)用方向的時(shí)候,可以用更小的多模態(tài)模型推動(dòng)落地。
上一篇:孟羽童“不得不反”