與3、4月份人們充滿期待的科幻想象相比,當(dāng)下做大模型的人,關(guān)注的話題更接近現(xiàn)實(shí)。他們發(fā)現(xiàn),數(shù)據(jù)是難題,算力也是難題,大模型這條路,前景美好但現(xiàn)實(shí)艱難。
作者:任曉寧
卷數(shù)量
7月6日至7日,在上海2023年世界人工智能大會(huì)召開的2天時(shí)間里,據(jù)記者不完全統(tǒng)計(jì),有10多款大模型新品發(fā)布或宣布即將發(fā)布。發(fā)布的公司有互聯(lián)網(wǎng)科技公司、創(chuàng)業(yè)公司,還有通信公司;而在大模型新品中,有通用大模型,也有專注細(xì)分行業(yè)的行業(yè)大模型。
已經(jīng)發(fā)布的包括:阿里巴巴的繪畫大模型“通義萬(wàn)相”、中國(guó)電信的類ChatGPT產(chǎn)品“TeleChat大模型”商湯科技聯(lián)合香港中文大學(xué)和清華大學(xué)等推出的“書生通用大模型體系”、第四范式專注企業(yè)軟件領(lǐng)域的“式說(shuō)”大模型。
7月7日下午,華為宣布發(fā)布盤古大模型3.0。華為常務(wù)董事、華為云CEO張平安在PPT最顯眼位置寫著“不作詩(shī)只做事”,他說(shuō),盤古大模型聚焦價(jià)值場(chǎng)景,致力于深耕政務(wù)、金融、制造、煤礦、鐵路、制藥、氣象等行業(yè)。比如氣象行業(yè),盤古氣象大模型可以在相同的空間分辨率下,比歐洲氣象中心的operational IFS速度提升10000倍以上,同時(shí)保持極高的精準(zhǔn)度。
而即將發(fā)布的主要大模型產(chǎn)品也有不少。京東將在7月13日發(fā)布的千億級(jí)“言犀大模型”,中國(guó)移動(dòng)將于近期發(fā)布“九天”1+N大模型,醫(yī)渡科技稱正在研發(fā)醫(yī)療大模型,并將于近期針對(duì)部分目標(biāo)場(chǎng)景推出小范圍邀請(qǐng)測(cè)試。奇安信集團(tuán)董事長(zhǎng)齊向東表示,正在研發(fā)安全行業(yè)大模型,面向政府和企業(yè)客戶;10月24日,科大訊飛將發(fā)布通用大模型,全面對(duì)標(biāo)ChatGPT。
在5月底舉行的中關(guān)村論壇上,有專家披露,據(jù)其統(tǒng)計(jì)到當(dāng)時(shí)為止,中國(guó)10億級(jí)參數(shù)規(guī)模以上大模型已發(fā)布了79個(gè)。如今,隨著世界人工智能大會(huì)上批量發(fā)布的一批大模型,百模大戰(zhàn)也已經(jīng)正式打響。
卷垂直
年初ChatGPT在國(guó)內(nèi)爆火后,大模型的熱度持續(xù)至今。中金公司一位高管在大會(huì)論壇上說(shuō),他過(guò)去3個(gè)月參加的一半以上的會(huì)都是人工智能相關(guān)的,“似乎不談ChatGPT,大家就要玩完了似的?!?/p>
這種熱度可以解釋為何直到現(xiàn)在,仍有眾多公司還在繼續(xù)發(fā)布大模型。不過(guò),隨著人們對(duì)大模型認(rèn)知的增加,大模型的問(wèn)題也逐漸凸顯,成為需要直面的挑戰(zhàn)。
圖靈獎(jiǎng)得主、中國(guó)科學(xué)院院士、清華大學(xué)交叉信息研究院院長(zhǎng)姚期智認(rèn)為,未來(lái)大模型應(yīng)用中最直接影響的就是文書工作,作為生產(chǎn)力工具,許多文書工作可以交由大模型來(lái)完成。
作為文書領(lǐng)域的重要玩家,金山辦公也發(fā)布了他們基于大模型的AI辦公產(chǎn)品“WPS AI”,可以潤(rùn)色文章,自動(dòng)制作表格和PPT。用戶可以讓AI把一篇提綱制作成PPT,并能隨意更換PPT風(fēng)格。
“WPS AI”搭建在MiniMax、百度文心、智譜AI等大模型之上。金山辦公CEO章慶元在大會(huì)現(xiàn)場(chǎng)表示,金山辦公將WPS AI定位為大語(yǔ)言模型的應(yīng)用方,未來(lái)錨定AIGC(內(nèi)容創(chuàng)作)、Copilot(智慧助手)、Insight(知識(shí)洞察)三個(gè)戰(zhàn)略方向發(fā)展。
同樣在7月7日當(dāng)天,語(yǔ)言智能科技企業(yè)蜜度發(fā)布了專門針對(duì)校對(duì)垂直行業(yè)的大模型,名為“蜜度文修”。蜜度首席技術(shù)官劉益東告訴經(jīng)濟(jì)觀察報(bào)記者,蜜度深耕語(yǔ)言智能領(lǐng)域已有十余年時(shí)間,擁有龐大的專業(yè)數(shù)據(jù)語(yǔ)料。今年ChatGPT火了后,他們嘗試做了一個(gè)校對(duì)領(lǐng)域大模型,訓(xùn)練出來(lái)的效果很令人震驚,在垂直領(lǐng)域的效果遠(yuǎn)遠(yuǎn)好于通用大模型。
劉益東還提到,做垂直行業(yè)大模型的成本比通用大模型低很多。他們的校對(duì)模型,只拿百余張卡訓(xùn)了一個(gè)多月的時(shí)間,做了幾輪比對(duì)實(shí)驗(yàn),效果就已經(jīng)達(dá)到可以發(fā)布的程度了。
卷進(jìn)度
新的大模型不斷涌現(xiàn),之前已經(jīng)發(fā)布的大模型公司也不甘示弱,在7月6日、7月7日公布了最新進(jìn)展。
今年4月10日,商湯發(fā)布了通用大模型產(chǎn)品“日日新”。7月7日,“日日新”更新到2.0版,商湯集團(tuán)聯(lián)合創(chuàng)始人、董事長(zhǎng)兼CEO徐立現(xiàn)場(chǎng)展示了大模型新能力。
徐立用他自己的照片做案例,生成了“一個(gè)戴眼鏡的男人,彈吉他”的圖片,這是他沒(méi)有做過(guò)的事情,生成后發(fā)給家人朋友,很多人都信以為真。這些AI生成圖片的細(xì)節(jié)達(dá)到了照片級(jí)。他還展示了AI繪畫的功能,現(xiàn)在商湯大模型可以幫用戶補(bǔ)充提示詞,比如,一個(gè)用戶輸入了“中國(guó)龍,藍(lán)色擺件,珠寶風(fēng)格”關(guān)鍵詞后,AI生成了一條龍的普通圖片,大模型可以自動(dòng)把提示詞補(bǔ)充為“一個(gè)中國(guó)龍的3D渲染圖,具有極其精細(xì)的圖案,龍站在一個(gè)藍(lán)色瑪瑙海上,添加深度和神秘感……”,AI生成的新圖片藝術(shù)感增強(qiáng)了許多。
徐立說(shuō),4月發(fā)布大模型后,商湯每周都在對(duì)大模型做迭代。此外,針對(duì)行業(yè)需求,他們也在大模型基礎(chǔ)上推出了小模型。
作為國(guó)內(nèi)首個(gè)發(fā)布大模型的互聯(lián)網(wǎng)大廠,百度也在人工智能大會(huì)上公布了“文心一言”最新進(jìn)展。百度首席技術(shù)官、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心主任王海峰稱,文心大模型3.5效果、功能、性能全面提升,實(shí)現(xiàn)了基礎(chǔ)模型升級(jí)、精調(diào)技術(shù)創(chuàng)新、知識(shí)點(diǎn)增強(qiáng)、邏輯推理增強(qiáng)等,模型效果提升50%,訓(xùn)練速度提升2倍,推理速度提升30倍。
此外,做大模型的公司們,當(dāng)下也正在努力搭建生態(tài),建立標(biāo)準(zhǔn)。7月7日,百度、華為、阿里巴巴等企業(yè)被工信部中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院(簡(jiǎn)稱“電子標(biāo)準(zhǔn)院”)授予“國(guó)家人工智能標(biāo)準(zhǔn)化總體組大模型專題組”組長(zhǎng)單位,正在積極推動(dòng)大模型國(guó)家標(biāo)準(zhǔn)體系建設(shè),助力中國(guó)大模型產(chǎn)業(yè)發(fā)展。
卷算力
與3、4月份人們充滿期待的科幻想象相比,當(dāng)下做大模型的人,關(guān)注的話題更接近現(xiàn)實(shí)。他們發(fā)現(xiàn),數(shù)據(jù)是難題,算力也是難題,大模型這條路,前景美好但現(xiàn)實(shí)艱難。
“算力是人工智能產(chǎn)業(yè)創(chuàng)新的基礎(chǔ),大模型的持續(xù)創(chuàng)新,驅(qū)動(dòng)算力需求的爆炸式增長(zhǎng)??梢哉f(shuō),大模型訓(xùn)練的效率或者是創(chuàng)新的速度,根本上取決于算力的大小?!比A為輪值董事長(zhǎng)胡厚崑判斷,伴隨大模型帶來(lái)的生成式 AI 突破,人工智能正在進(jìn)入一個(gè)新的時(shí)代,算力已經(jīng)成為越來(lái)越稀缺的資源。
華為目前正在著手解決算力問(wèn)題。7月6日,華為宣布旗下算力解決方案昇騰AI集群全面升級(jí),集群規(guī)模從最初的4000卡集群擴(kuò)展至16000卡,為業(yè)界首個(gè)萬(wàn)卡AI集群。此前,騰訊云也面向大模型發(fā)布新一代高性能計(jì)算集群,算力性能較前代提升高達(dá)3倍。
不過(guò),當(dāng)前的算力仍有很大挑戰(zhàn)。一位大模型創(chuàng)業(yè)公司人士告訴記者,大模型的研發(fā)成本非常高昂。僅算力一個(gè)領(lǐng)域,做訓(xùn)練、推理、數(shù)據(jù)處理,就需要數(shù)千卡并行的能力,這是一套非常復(fù)雜,也非常費(fèi)錢的系統(tǒng)工程。
清華大學(xué)電子工程系系主任汪玉舉了一個(gè)例子,若同時(shí)處理14億人的推理請(qǐng)求,需要10*24 FLOPs(模型計(jì)算力),這個(gè)數(shù)字超過(guò)中國(guó)數(shù)據(jù)中心總算力的3個(gè)數(shù)量級(jí)。
“現(xiàn)有GPU硬件平臺(tái)的算力仍難滿足大模型的需求?!蓖粲裾f(shuō)。即使現(xiàn)有的最好的芯片,想解決算力問(wèn)題也仍有很大挑戰(zhàn)。
算力之外,大模型數(shù)據(jù)也有挑戰(zhàn)。一位做智能汽車的創(chuàng)始人苦惱于數(shù)據(jù)量太大,他們公司剛賣了1萬(wàn)輛汽車,但產(chǎn)生的數(shù)據(jù)已經(jīng)讓他覺得很龐大了,他不敢想象賣到10萬(wàn)輛車時(shí)會(huì)怎樣。硬幣的另一面,也有人因?yàn)閿?shù)據(jù)不夠而感到困難,一位用大模型做生物醫(yī)藥研發(fā)的人士說(shuō),他們最缺的就是數(shù)據(jù),這阻礙了他們研發(fā)醫(yī)藥的速度。
騰訊高級(jí)執(zhí)行副總裁湯道生表示,通用大模型一般基于公開信息來(lái)訓(xùn)練,在許多專業(yè)知識(shí)和行業(yè)數(shù)據(jù)積累不足。在策略上,通用大模型有點(diǎn)像“把大海煮沸”,不夠聚焦,可以解決80%的問(wèn)題,但未必能夠滿足企業(yè)某個(gè)場(chǎng)景的具體需求。
徐立也提到,大模型的幻覺性問(wèn)題仍很嚴(yán)重,是需要解決的問(wèn)題?;糜X性問(wèn)題是自然語(yǔ)言處理領(lǐng)域中的基礎(chǔ)問(wèn)題之一,指文本生成模型的生成結(jié)果中含有與輸入事實(shí)上沖突的內(nèi)容。這些問(wèn)題造成了大模型“一本正經(jīng)的胡說(shuō)八道”現(xiàn)象。
除此之外,清華大學(xué)智能產(chǎn)業(yè)研究院院長(zhǎng)、中國(guó)工程院院士張亞勤提到,當(dāng)下大模型仍有自己的局限性。比如ChatGPT會(huì)有時(shí)效性問(wèn)題,你問(wèn)它它是什么時(shí)候發(fā)布的,它不知道,因?yàn)樗褂玫氖?021年9月前的數(shù)據(jù)。另外,大模型還有效率低、涉嫌侵犯隱私和知識(shí)產(chǎn)權(quán)保護(hù)問(wèn)題等,這些問(wèn)題都將影響大模型的商用。張亞勤認(rèn)為,大模型效率至少還要提高10倍,才有大規(guī)模商用的可能性。