午夜欧美性视频在线播放,成年人在线观看免费视频

中國(guó)的“ChatGPT們” 尋找高質(zhì)量數(shù)據(jù)“養(yǎng)分”

連線Insight

2023-04-06 21:43:52

有著大模型儲(chǔ)備的大廠，紛紛下場(chǎng)布局。上月底，在360科技2023年數(shù)字安全與發(fā)展高峰論壇上，其官方正式發(fā)布大語(yǔ)言模型360 AI。

而在更早以前，作為國(guó)內(nèi)率先對(duì)人工智能領(lǐng)域布局的百度，也推出了旗下多模態(tài)大模型應(yīng)用——文心一言，據(jù)百度CEO李彥宏介紹，該模型具備文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算、中文理解、多模態(tài)生成五個(gè)使用場(chǎng)景的綜合能力。

與此同時(shí)，阿里，美團(tuán)等大廠的一大批高管，看準(zhǔn)機(jī)會(huì)相繼宣布創(chuàng)業(yè)，拿出大部分身家，只為做出中國(guó)版的ChatGPT。

先是在今年2月，原美團(tuán)聯(lián)合創(chuàng)始人王慧文在社交媒體上宣布出資5000萬(wàn)美元，設(shè)立北京光年之外科技有限公司，并表示75%的股份用于邀請(qǐng)頂級(jí)研發(fā)人才，打造中國(guó)OpenAI。另?yè)?jù)最新消息，光年之外近期已啟動(dòng)新一輪融資。

次月，阿里前技術(shù)副總裁賈揚(yáng)清也透露了他下一步的創(chuàng)業(yè)打算，據(jù)他介紹其目標(biāo)是AI大模型底層技術(shù)相關(guān)，目前融資已基本到位。

除此之外，還有字節(jié)跳動(dòng)旗下今日頭條前用戶產(chǎn)品負(fù)責(zé)人張前川、快手前國(guó)際化技術(shù)負(fù)責(zé)人王美宏、IDEA研究院理事長(zhǎng)沈向洋、循環(huán)智能聯(lián)合創(chuàng)始人楊植麟等高管，試圖在ChatGPT風(fēng)口中，尋求“再就業(yè)”的機(jī)會(huì)。

一大批創(chuàng)業(yè)者們前赴后繼，“ChatGPT們”正加速狂飆，這背后少不了多個(gè)行業(yè)“保駕護(hù)航”。

要建立ChatGPT這樣的大模型應(yīng)用，少不了算法、算力和數(shù)據(jù)三大行業(yè)的支持，簡(jiǎn)單說(shuō)，應(yīng)用要高效運(yùn)行起來(lái)，就需要強(qiáng)大算力的支持，而要讓應(yīng)用背后的算法更為聰明，則需要源源不斷地向其“投喂”高質(zhì)量數(shù)據(jù)。

中國(guó)的“ChatGPT們” 尋找高質(zhì)量數(shù)據(jù)“養(yǎng)分”

由此可見(jiàn)，算法大模型想要實(shí)現(xiàn)升級(jí)和迭代，最為關(guān)鍵的就是需要大量數(shù)據(jù)的訓(xùn)練，而要保證這些數(shù)據(jù)的質(zhì)量，就需要對(duì)數(shù)據(jù)進(jìn)行清洗、標(biāo)注、質(zhì)檢等多個(gè)步驟，要完成這一目標(biāo)，少不了標(biāo)貝科技、海天瑞聲為代表的一批數(shù)據(jù)標(biāo)注提供商的助力。

現(xiàn)階段，數(shù)據(jù)標(biāo)注廠商們已耕耘多年，且各有“兩把刷子”。

標(biāo)貝科技，作為多年扎根在數(shù)據(jù)標(biāo)注領(lǐng)域的企業(yè)，專注于智能語(yǔ)音交互與AI數(shù)據(jù)服務(wù)，并通過(guò)精細(xì)化的定制服務(wù)打出自己在行業(yè)中的優(yōu)勢(shì)。截止目前，標(biāo)貝科技服務(wù)項(xiàng)目累計(jì)超過(guò)1000項(xiàng)。

除此之外，海天瑞聲、Scale.AI、Appen等玩家，同樣是專注于數(shù)據(jù)標(biāo)注的廠商，具備全套的產(chǎn)品與服務(wù)，在語(yǔ)音、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言理解等領(lǐng)域皆有布局。

隨著GPT-4等大模型的進(jìn)一步發(fā)展，對(duì)于訓(xùn)練數(shù)據(jù)質(zhì)量的要求必將更為苛刻，擺在數(shù)據(jù)標(biāo)注廠商們面前的，是無(wú)限機(jī)會(huì)與挑戰(zhàn)。

ChatGPT創(chuàng)業(yè)潮來(lái)了，

高質(zhì)量數(shù)據(jù)成“剛需”

ChatGPT正為交互領(lǐng)域帶來(lái)“劃時(shí)代”的改變。

隨著1946年，世界第一臺(tái)現(xiàn)代計(jì)算機(jī)EDVAC誕生，交互1.0時(shí)代正式開(kāi)啟。人們用打孔紙，通過(guò)輸入0、1二進(jìn)制的機(jī)器語(yǔ)言與計(jì)算機(jī)進(jìn)行交互，直到上世紀(jì)70年代，人機(jī)交互迎來(lái)一次新的蛻變。

當(dāng)時(shí)，隨著首臺(tái)個(gè)人計(jì)算機(jī)的問(wèn)世，相比于此前用打孔交互不同，人們可以通過(guò)鼠標(biāo)、鍵盤向計(jì)算機(jī)傳達(dá)任務(wù)：即通過(guò)點(diǎn)擊電腦圖標(biāo)、以及用鍵盤輸入指令向計(jì)算機(jī)下達(dá)命令，從而讓計(jì)算機(jī)做出反饋，自此，計(jì)算機(jī)開(kāi)始“飛入更多尋常百姓家”。

這之后，雖然出現(xiàn)了Windows等多款操作系統(tǒng)，并且這些操作系統(tǒng)自身也持續(xù)不斷地進(jìn)行著更新，但從本質(zhì)將人機(jī)交互依然是通過(guò)編碼和解碼后的機(jī)器語(yǔ)言來(lái)進(jìn)行。

直到2022年，OpenAI帶著ChatGPT的到來(lái)，讓交互領(lǐng)域再度迎來(lái)“iPhone”時(shí)刻：人們能夠直接用自然語(yǔ)言流暢地與計(jì)算機(jī)進(jìn)行交流，并且計(jì)算機(jī)能夠直接理解自然語(yǔ)言并與用戶進(jìn)行反饋和對(duì)話。

之所以說(shuō)是ChatGPT開(kāi)啟了新的交互時(shí)代，是因?yàn)?span style="font-weight: 700;">相較于以往的對(duì)話模型，ChatGPT有著質(zhì)的飛躍。

經(jīng)過(guò)連線Insight體驗(yàn)，ChatGPT能夠從中國(guó)詩(shī)詞歌賦聊到西方人生哲學(xué)，并在最后進(jìn)行總結(jié)；而以往的對(duì)話模型只能表達(dá)一首簡(jiǎn)短的中文詩(shī)。也就是說(shuō)ChatGPT能夠?qū)崿F(xiàn)多輪及結(jié)合上下文的不間斷聊天，且能記住以往指令，同時(shí)用各國(guó)語(yǔ)言溝通無(wú)障礙。

而ChatGPT背后的大模型還在不斷迭代：從2022年底的GPT-3.5到2023年初的GPT-4，性能又得到了全方位的提升。

GPT-4較于GPT-3.5的性能提升，圖源OpenAI

當(dāng)看到ChatGPT在人機(jī)交互上跨時(shí)代的表現(xiàn)后，很快，各行各業(yè)都向ChatGPT們發(fā)出邀約。

最為聲勢(shì)浩大的莫過(guò)于微軟，在2020年，微軟下了血本投資OpenAI 10億美元，在2023年，微軟迎來(lái)摘果子時(shí)刻：微軟正在將自家生態(tài)逐步和GPT進(jìn)行結(jié)合，從而形成全新的AI生態(tài)。

上月17日，微軟發(fā)布融合GPT-4能力的Microsoft 365 Copilot。據(jù)了解，Copilot將會(huì)被內(nèi)置到Word、Excel、PowerPoint、Outlook、Teams等應(yīng)用之中。

簡(jiǎn)單來(lái)說(shuō)，用戶只需要對(duì)Office下一個(gè)編輯的指令，Word、PPT、Excel等就會(huì)自動(dòng)“干活”。例如，在制作PPT時(shí)，Copilot可以基于用戶的輸入內(nèi)容自動(dòng)生成PPT頁(yè)面，并提供字體、顏色、背景等設(shè)計(jì)風(fēng)格建議，并且Copilot還可以自動(dòng)檢測(cè)演示文稿中的錯(cuò)誤和重復(fù)內(nèi)容。

就當(dāng)微軟在ChatGPT領(lǐng)域落子的同時(shí)，國(guó)內(nèi)科技公司百度也率先站出來(lái)，發(fā)布了它的類ChatGPT產(chǎn)品——文心一言。據(jù)連線Insight測(cè)試，文心一言同樣具備ChatGPT的眾多能力，比如對(duì)于提問(wèn)做出及時(shí)、準(zhǔn)確的回應(yīng)，以及可以結(jié)合上下文進(jìn)行不間斷的交流和應(yīng)答。

看到文心一言的能力后，國(guó)內(nèi)各個(gè)行業(yè)的企業(yè)們紛紛響應(yīng)，爭(zhēng)相成為該產(chǎn)品的合作伙伴。比如汽車行業(yè)的集度、長(zhǎng)城，媒體行業(yè)的澎湃新聞、大眾日?qǐng)?bào)，家電行業(yè)的海信、美的等企業(yè)，紛紛接入百度文心一言。截止目前，已有650+公司，等待著百度文心一言的支持。

OpenAI、微軟和百度引領(lǐng)之后，有更多的科技公司參與到類ChatGPT大模型的爭(zhēng)奪中來(lái)。

上月底，在360科技2023年數(shù)字安全與發(fā)展高峰論壇上，其官方正式發(fā)布其大語(yǔ)言模型360 AI。目前360的構(gòu)想是，在To C端，基于搜索場(chǎng)景推出人工智能個(gè)人助理類產(chǎn)品；在To SME端，將基于生成式大模型推出SaaS化垂直應(yīng)用，如結(jié)合生成式AI的“企業(yè)即時(shí)通訊工具-推推”等。

除此之外，網(wǎng)易、科大訊飛等科技公司的產(chǎn)品也在孵化之中：2月8日，網(wǎng)易有道對(duì)外表示，該公司未來(lái)或?qū)⑼瞥鯟hatGPT同源技術(shù)產(chǎn)品，應(yīng)用場(chǎng)景圍繞在線教育；2月9日，科大訊飛表示，其Al學(xué)習(xí)機(jī)將成為公司類ChatGPT技術(shù)率先落地的產(chǎn)品，并于今年5月發(fā)布。

隨著越來(lái)越多科技大廠布局類ChatGPT大模型，行業(yè)內(nèi)外對(duì)于GPT-4等大模型也提出越來(lái)越多樣的要求：既要其懂得駕駛語(yǔ)言，賦能智能座艙甚至是自動(dòng)駕駛；又要求其博覽群書，并給出群書中的關(guān)鍵論點(diǎn)；還要會(huì)塑造虛擬人物，懂得人類的喜怒哀樂(lè)等等。

這也意味著，行業(yè)內(nèi)外對(duì)于大模型必備的“三件套”（算力、算法、數(shù)據(jù)），正提出更高的要求。

對(duì)于大模型“世界”來(lái)說(shuō)，算法是“生產(chǎn)關(guān)系”，是處理數(shù)據(jù)信息的規(guī)則與方式；算力是“生產(chǎn)力”，能夠提高數(shù)據(jù)處理、算法訓(xùn)練的速度與規(guī)模；而數(shù)據(jù)是“生產(chǎn)資料”，高質(zhì)量的數(shù)據(jù)是驅(qū)動(dòng)算法持續(xù)迭代的養(yǎng)分。

基于這一重要性，目前對(duì)于算力的持續(xù)投注已是行業(yè)共識(shí)，政府也開(kāi)始出手。

先是部分地方政府開(kāi)放算力資源促進(jìn)地方產(chǎn)業(yè)發(fā)展。今年1月，成都出臺(tái)《成都市圍繞超算智算加快算力產(chǎn)業(yè)發(fā)展的政策措施》，政策表明，成都每年將發(fā)放總額不超過(guò)1000萬(wàn)元的“算力券”，用于支持算力中介服務(wù)機(jī)構(gòu)、科技型中小微企業(yè)、科研機(jī)構(gòu)、高校等使用國(guó)家超算成都中心、成都智算中心算力資源。

再到次月，國(guó)家發(fā)布算力交易平臺(tái)，促進(jìn)算力的流通。東數(shù)西算一體化算力服務(wù)平臺(tái)在寧夏銀川在當(dāng)月正式上線發(fā)布。據(jù)悉，東數(shù)西算一體化算力服務(wù)平臺(tái)將瞄準(zhǔn)目前最稀缺、剛需迫切的ChatGPT運(yùn)算能力，以支撐中國(guó)人工智能運(yùn)算平臺(tái)急需的大算力服務(wù)。

需要注意的是，如果沒(méi)有高質(zhì)量數(shù)據(jù)，算力再充足也無(wú)濟(jì)于事。參考ChatGPT，其高質(zhì)量數(shù)據(jù)是其在有效場(chǎng)景下采集到的原料數(shù)據(jù)，經(jīng)過(guò)數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、質(zhì)檢等環(huán)節(jié)后產(chǎn)生的。

高質(zhì)量數(shù)據(jù)對(duì)于ChatGPT改進(jìn)的重要性，可從以下案例中，窺見(jiàn)一二。根據(jù)InstructGPT實(shí)驗(yàn)發(fā)現(xiàn)，隨著模型參數(shù)量的增加，模型性能均得到不同程度的提高。

模型參數(shù)量與模型性能變化情況，圖源InstructGPT

通過(guò)強(qiáng)化學(xué)習(xí)—PPO（近端策略優(yōu)化）生成的模型，比100倍參數(shù)規(guī)模無(wú)監(jiān)督的GPT模型效果更好。這里的PPO，便是2017年由OpenAI提出的一種基于隨機(jī)策略的DRL算法，通過(guò)對(duì)策略的更新與監(jiān)督來(lái)提高策略的效率。

可以說(shuō)，有監(jiān)督的標(biāo)注數(shù)據(jù)是大模型應(yīng)用成功的關(guān)鍵之一，且標(biāo)注數(shù)據(jù)貴不在數(shù)量而在質(zhì)量。在GPT-4等大模型高速、高質(zhì)量發(fā)展中，高質(zhì)量數(shù)據(jù)是“卡脖子”的存在。

現(xiàn)如今，各行各業(yè)紛紛向ChatGPT們發(fā)來(lái)邀約，ChatGPT們急需補(bǔ)充養(yǎng)分。而若想要真正提高ChatGPT的競(jìng)爭(zhēng)力，高質(zhì)量數(shù)據(jù)必不可少。

數(shù)據(jù)標(biāo)注，乃“兵家”重地

從GPT-3到ChatGPT，大模型經(jīng)歷了5次迭代。

據(jù)東方證券研報(bào)顯示，在這幾次迭代中，最明顯的變化是，在訓(xùn)練方式上增加了RLHF，即讓智能體通過(guò)接收來(lái)自人類用戶或?qū)＜业姆答亖?lái)調(diào)整自己的行為的方法，同時(shí)用上了起碼7.7萬(wàn)人工標(biāo)注的語(yǔ)料庫(kù)。

從GPT-3到ChatGPT的迭代過(guò)程，圖源東方證券、未來(lái)智庫(kù)

也就是說(shuō)，經(jīng)過(guò)RLHF的多輪磨練、大量人工標(biāo)注數(shù)據(jù)的修正，2020年發(fā)布的語(yǔ)言理解能力較弱、名不見(jiàn)經(jīng)傳的GPT-3，才成功蛻變成為有著多輪對(duì)話能力、史上月活用戶數(shù)量最快破億應(yīng)用的ChatGPT。

在這一過(guò)程中，數(shù)據(jù)標(biāo)注廠商們功不可沒(méi)。

目前，國(guó)內(nèi)大部分?jǐn)?shù)據(jù)標(biāo)注服務(wù)商提供文本、語(yǔ)音、圖像、視頻等各類型數(shù)據(jù)標(biāo)注，服務(wù)應(yīng)用領(lǐng)域涵蓋安防、智能駕駛、醫(yī)療、教育、金融等多個(gè)領(lǐng)域，主要客戶包括科技公司、人工智能企業(yè)、傳統(tǒng)企業(yè)、政府部門和科研機(jī)構(gòu)等。

數(shù)據(jù)服務(wù)方面，分為數(shù)據(jù)集產(chǎn)品和數(shù)據(jù)資源定制服務(wù)。數(shù)據(jù)集產(chǎn)品按用途劃分，有訓(xùn)練集、驗(yàn)證集、測(cè)試集等。而數(shù)據(jù)資源定制服務(wù)，即根據(jù)客戶業(yè)務(wù)特點(diǎn)，專門提供定制化的基礎(chǔ)數(shù)據(jù)全流程服務(wù)，數(shù)據(jù)內(nèi)容以語(yǔ)音、圖像、NLP、OCR為主。

目前，玩家們根據(jù)行業(yè)局勢(shì)、技術(shù)優(yōu)勢(shì)，“各有所好”：

作為較早進(jìn)入數(shù)據(jù)標(biāo)注行業(yè)的玩家，標(biāo)貝科技在能力上具備全面性，同時(shí)也更專注于智能語(yǔ)音交互。目前，標(biāo)貝基于AI+SaaS開(kāi)放平臺(tái)，提供語(yǔ)料庫(kù)建設(shè)與標(biāo)注、指令微調(diào)服務(wù)、基于人工反饋的強(qiáng)化學(xué)習(xí)標(biāo)注三大服務(wù)模塊，與微軟、百度、阿里、科大訊飛等國(guó)內(nèi)外百余家企業(yè)客戶建立合作，涵蓋汽車、教育、客服、零售、閱讀、智能硬件等多個(gè)領(lǐng)域。

標(biāo)貝科技ChatGPT標(biāo)注平臺(tái)操作頁(yè)面，圖源標(biāo)貝科技

其中，基于人工反饋的強(qiáng)化學(xué)習(xí)標(biāo)注便是ChatGPT背后的秘密武器。簡(jiǎn)單來(lái)說(shuō)，就是用人工標(biāo)注的方式，不斷地將結(jié)果去反饋給模型：回答好的給出正反饋，回答不好的，就通過(guò)加分機(jī)制的方式讓模型進(jìn)一步的自我迭代，并進(jìn)行不斷的調(diào)優(yōu)，直到回答正確。

在數(shù)據(jù)標(biāo)注行業(yè)中，除了標(biāo)貝之外，也有其他玩家共同推動(dòng)行業(yè)發(fā)展。

比如數(shù)據(jù)服務(wù)商Appen，主營(yíng)業(yè)務(wù)包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理與模型評(píng)價(jià)三大類，業(yè)務(wù)類型齊全。又或者是國(guó)內(nèi)的廠商海天瑞聲，已然形成文字、圖片、音頻、視頻等多模態(tài)標(biāo)注布局，可在全球進(jìn)行190種語(yǔ)言、方言的采集，多場(chǎng)景圖像、視頻采集以及多行業(yè)領(lǐng)域文本語(yǔ)料制作。

但就能力來(lái)看，標(biāo)貝在圖文、音視頻領(lǐng)域有著更為全方位的布局，因此其在智能語(yǔ)音大模型數(shù)據(jù)標(biāo)注上，有著絕對(duì)話語(yǔ)權(quán)。

對(duì)比各家官網(wǎng)發(fā)現(xiàn)，標(biāo)貝在智能語(yǔ)音標(biāo)注層面提供的工具、產(chǎn)品以及解決方案是最全的，除此之外，標(biāo)貝推出多語(yǔ)種語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)，覆蓋美式英語(yǔ)、英式英語(yǔ)、韓語(yǔ)、法語(yǔ)、西班牙語(yǔ)、俄語(yǔ)、阿拉伯語(yǔ)等多語(yǔ)種，解決多語(yǔ)種識(shí)別訓(xùn)練語(yǔ)料稀缺的難題。

同時(shí)，標(biāo)貝所打造的模型更為高效、所提供的服務(wù)也更為全面。

在對(duì)話大模型優(yōu)化數(shù)據(jù)設(shè)計(jì)方案上，除了最基本的數(shù)據(jù)采集和清洗技術(shù)外，標(biāo)貝科技還擁有一系列高效處理數(shù)據(jù)、優(yōu)化模型的技術(shù)。

例如，模型微調(diào)技術(shù)，相對(duì)于從頭開(kāi)始訓(xùn)練(Training a model from scratch)，微調(diào)技術(shù)能夠省去大量計(jì)算資源和計(jì)算時(shí)間，提高計(jì)算效率的同時(shí)提高準(zhǔn)確率。

又或者是終身學(xué)習(xí)技術(shù)，能夠讓模型在不同的任務(wù)上依次訓(xùn)練，并能夠勝任所有任務(wù)，而不是像傳統(tǒng)的機(jī)器學(xué)習(xí)那樣，一個(gè)網(wǎng)絡(luò)只能勝任一個(gè)任務(wù)?；诖?，模型能夠舉一反三，同樣能夠省去大量計(jì)算資源和計(jì)算時(shí)間。

全面的服務(wù)，體現(xiàn)在標(biāo)貝能夠在模型運(yùn)作的各個(gè)階段持續(xù)助力。

基于更高效的技術(shù)以及多個(gè)場(chǎng)景的磨練，在中小模型落地過(guò)程中，標(biāo)貝能夠提供“保姆級(jí)服務(wù)”。在早期，標(biāo)貝基于常年經(jīng)驗(yàn)積累，能夠幫助客戶快速理清項(xiàng)目的技術(shù)難點(diǎn)和解決方案，能夠幫助“初來(lái)乍到”的客戶快速摸清項(xiàng)目脈絡(luò)。

中期，標(biāo)貝能夠快速驗(yàn)證自身的數(shù)據(jù)設(shè)計(jì)和標(biāo)注方案在不同開(kāi)源模型規(guī)模、模型風(fēng)格上的效果，從而可以預(yù)覽和優(yōu)化最終客戶的成品模型水平，也就是說(shuō)，能在項(xiàng)目成型之前，把偏差扼殺在搖籃里。

據(jù)標(biāo)貝官方介紹，近期，其與一家大型智能AI公司合作中，在“對(duì)話大模型優(yōu)化推理鏈（Chain of Thoughts）的數(shù)據(jù)集”項(xiàng)目上，標(biāo)貝科技在數(shù)據(jù)方案設(shè)計(jì)階段之前便和該客戶共同驗(yàn)證了多個(gè)版本的設(shè)計(jì)方案在開(kāi)源中小模型中的效果，迭代和修正了之前無(wú)法預(yù)估的偏置錯(cuò)誤。

數(shù)據(jù)標(biāo)注行業(yè)，玩家無(wú)數(shù)。在這之中，有著過(guò)硬技術(shù)實(shí)力、能夠提供定制化、“保姆級(jí)”服務(wù)能力的廠商自然會(huì)脫穎而出。但想要讓這條賽道越走越寬，還需要更多力量的支持。

GPT-4們嗷嗷待哺，合作乃是最優(yōu)解

據(jù)國(guó)務(wù)院《新一代人工智能發(fā)展規(guī)劃》預(yù)測(cè)，2025年我國(guó)人工智能核心產(chǎn)業(yè)規(guī)模將超過(guò)4000億元，帶動(dòng)產(chǎn)業(yè)規(guī)?；虺?萬(wàn)億元。

人工智能本就火熱，現(xiàn)如今再疊加ChatGPT推動(dòng)作用，以及有標(biāo)貝等高質(zhì)量數(shù)據(jù)標(biāo)注商的助力，讓這條賽道的未來(lái)更加令人期待。但不能否認(rèn)的是，目前也存在著一個(gè)殘酷的事實(shí)——用于大模型的高質(zhì)量數(shù)據(jù)不夠用了。

據(jù)Epoch AI Research研究人員預(yù)測(cè)，大模型所需的高質(zhì)量語(yǔ)言數(shù)據(jù)存量將在2026年耗盡，低質(zhì)量的語(yǔ)言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在2030年至2050年、2030年至2060年枯竭。

如果數(shù)據(jù)效率沒(méi)有顯著提高或有新的數(shù)據(jù)源可用，那么到2040年，大模型的規(guī)模增長(zhǎng)或許將會(huì)放緩。

不同數(shù)據(jù)類型的消耗趨勢(shì)和耗盡日期，圖源Epoch AI Research

這就意味著，市場(chǎng)急需標(biāo)貝科技等數(shù)據(jù)標(biāo)注廠商高效率地產(chǎn)出高質(zhì)量數(shù)據(jù)，為ChatGPT們補(bǔ)充養(yǎng)分。

但就目前來(lái)看，國(guó)內(nèi)的數(shù)據(jù)標(biāo)注行業(yè)，仍然稚嫩。

其中較大的問(wèn)題是，數(shù)據(jù)標(biāo)注行業(yè)缺乏“條條框框”的約束：例如行業(yè)標(biāo)準(zhǔn)的制定，商業(yè)模式的敲定等等。某AI數(shù)據(jù)標(biāo)注訓(xùn)練師對(duì)連線Insight表示，如今的數(shù)據(jù)標(biāo)注公司之間一味地拼低價(jià)亂象叢生，最終拿到項(xiàng)目的乙方往往沒(méi)有能力承接。

與此同時(shí)，數(shù)據(jù)標(biāo)注行業(yè)中的一些玩家也處于毛利率、營(yíng)收持續(xù)走低的困境中。

根據(jù)海天瑞聲2019-2021年財(cái)報(bào)顯示，其毛利率從2019年的70.25%下滑至2021年的64.01%，營(yíng)收方面也從2019年的2.38億元，下滑至2021年的2.06億元。

2019-2021年海天瑞聲營(yíng)收、毛利率情況，數(shù)據(jù)來(lái)源于同花順，連線Insight制圖

更為重要的是，隨著大模型的迅速發(fā)展，供大模型訓(xùn)練所需的語(yǔ)料量，非一家能夠滿足。

當(dāng)前大模型訓(xùn)練需要的語(yǔ)料量非常龐大，但由于歷史原因，語(yǔ)料在不同語(yǔ)言之間存在局部的不均勻性問(wèn)題。

一個(gè)典型的例子是，絕大多數(shù)源代碼是用英語(yǔ)書寫的，但代碼語(yǔ)法本身是基于英文單詞設(shè)計(jì)。這導(dǎo)致不少模型即使參數(shù)量很大，卻無(wú)法準(zhǔn)確地捕捉到中文術(shù)語(yǔ)和源代碼的對(duì)應(yīng)規(guī)律，無(wú)法在中文用戶的提示下寫出同等質(zhì)量的代碼。

高質(zhì)量數(shù)據(jù)需求迫在眉睫，現(xiàn)有語(yǔ)料庫(kù)質(zhì)量堪憂，而國(guó)內(nèi)數(shù)據(jù)標(biāo)注行業(yè)還似一盤散沙，標(biāo)貝針對(duì)該困局，提出了自己的解法。

根據(jù)標(biāo)貝官方消息，其將公開(kāi)一系列數(shù)據(jù)集，旨在解決這類局部不均勻性的問(wèn)題。

標(biāo)貝的思路是，將代碼中的備注內(nèi)容替換成了高質(zhì)量的、符合表達(dá)規(guī)律的中文漢字。之后，還會(huì)按照實(shí)際業(yè)務(wù)需求和國(guó)內(nèi)開(kāi)源大模型的發(fā)展情況，定期設(shè)計(jì)和公開(kāi)類似的數(shù)據(jù)集。

在這之中，標(biāo)貝將更好地利用存量代碼進(jìn)行數(shù)據(jù)增強(qiáng)處理，以提高大模型在書寫代碼、專業(yè)長(zhǎng)篇討論時(shí)處理中文文本的能力。同時(shí)，標(biāo)貝也呼吁更多的數(shù)據(jù)標(biāo)注廠商能夠參與進(jìn)來(lái)，共同提高GPT-4等大模型語(yǔ)料庫(kù)的數(shù)據(jù)質(zhì)量。

在業(yè)內(nèi)看來(lái)，GPT-4等大模型潛力無(wú)限，標(biāo)貝科技也有能力把好數(shù)據(jù)標(biāo)注的關(guān)，使得大模型能夠產(chǎn)出更高質(zhì)量的數(shù)據(jù)。同時(shí)，數(shù)據(jù)標(biāo)注行業(yè)仍需更多數(shù)據(jù)標(biāo)注廠商共同合作，豐富數(shù)據(jù)集，改善語(yǔ)料庫(kù)質(zhì)量，共商行業(yè)標(biāo)準(zhǔn)，厘清商業(yè)模式，高效率地產(chǎn)出高質(zhì)量數(shù)據(jù)。

正如地平線創(chuàng)始人余凱為《深度學(xué)習(xí)革命》一書寫的序言“人工智能領(lǐng)域能得到快速發(fā)展，關(guān)鍵在于有著眾多的合作者來(lái)推動(dòng)這項(xiàng)事業(yè)”。而作為技術(shù)底座的數(shù)據(jù)標(biāo)注行業(yè)，更是如此。

上一篇：GPT正在“殺死”咨詢顧問(wèn)？

下一篇：周鴻祎的四種別離：梟雄“斗”成孤家寡人

香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放