香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

兩大可商用開源大模型同時(shí)發(fā)布!性能不輸LLaMA,羊駝家族名字都不夠用了

從Meta的LLaMA發(fā)展出的羊駝家族一系列大模型,已成為開源AI重要力量。

但LLamA開源了又沒全開,只能用于研究用途,還得填申請(qǐng)表格等,也一直被業(yè)界詬病。

好消息是,兩大對(duì)標(biāo)LLaMA的完全開源項(xiàng)目同時(shí)有了新進(jìn)展。

可商用開源大模型來了,還一下來了倆:

MosaicML推出MPT系列模型,其中70億參數(shù)版在性能測(cè)試中與LLaMA打個(gè)平手。

Together的RedPajama(紅睡衣)系列模型,30億參數(shù)版在RTX2070游戲顯卡上就能跑。

對(duì)于這些進(jìn)展,特斯拉前AI主管Andrej Karpathy認(rèn)為,開源大模型生態(tài)有了寒武紀(jì)大爆發(fā)的早期跡象。

MPT,與LLaMA五五開

MPT系列模型,全稱MosaicML Pretrained Transformer,基礎(chǔ)版本為70億參數(shù)。

MPT在大量數(shù)據(jù)(1T tokens)上訓(xùn)練,與LLaMA相當(dāng),高于StableLM,Pythia等其他開源模型。

支持84k tokens超長(zhǎng)輸入,并用FlashAttention和FasterTransformer方法針對(duì)訓(xùn)練和推理速度做過優(yōu)化。

在各類性能評(píng)估中,與原版LLaMA不相上下。

除了MPT-7B Base基礎(chǔ)模型外還有三個(gè)變體。

MPT-7B-Instruct,用于遵循簡(jiǎn)短指令。

MPT-7B-Chat,用于多輪聊天對(duì)話。

MPT-7B-StoryWriter-65k+,用于閱讀和編寫故事,支持65k tokens的超長(zhǎng)上下文,用小說數(shù)據(jù)集微調(diào)。

MosaicML由前英特爾AI芯片項(xiàng)目Nervana負(fù)責(zé)人Naveen Rao創(chuàng)辦。

該公司致力于降低訓(xùn)練神經(jīng)網(wǎng)絡(luò)的成本,推出的文本和圖像生成推理服務(wù)成本只有OpenAI的1/15。

RedPajama,2070就能跑

RedPajama系列模型,在5TB的同名開源數(shù)據(jù)上訓(xùn)練而來(前面提到的MPT也是用此數(shù)據(jù)集訓(xùn)練)。

除70億參數(shù)基礎(chǔ)模型外,還有一個(gè)30億參數(shù)版本,可以在5年前發(fā)售的RTX2070游戲顯卡上運(yùn)行。

目前70億版本完成了80%的訓(xùn)練,效果已經(jīng)超過了同規(guī)模的Pythia等開源模型,略遜于LLamA。

預(yù)計(jì)在完成1T tokens的訓(xùn)練后還能繼續(xù)改進(jìn)。

背后公司Together,由蘋果前高管Vipul Ved Prakash,斯坦福大模型研究中心主任Percy Liang,蘇黎世聯(lián)邦理工大學(xué)助理教授張策等人聯(lián)合創(chuàng)辦。

開源模型發(fā)布后,他們的近期目標(biāo)是繼續(xù)擴(kuò)展開源RedPajama數(shù)據(jù)集到兩倍規(guī)模。

One More Thing

來自南美洲的無峰駝?lì)悇?dòng)物一共4種,已被各家大模型用完了。

Meta發(fā)布LLaMA之后,斯坦福用了Alpaca,伯克利等單位用了Alpaca,Joseph Cheung等開發(fā)者團(tuán)隊(duì)用了Guanaco。

以至于后來者已經(jīng)卷到了其他相近動(dòng)物,比如IBM的單峰駱駝Dromedary,Databricks的Dolly來自克隆羊多莉。

國(guó)人研究團(tuán)隊(duì)也熱衷于用古代傳說中的神獸,如UCSD聯(lián)合中山大學(xué)等推出的白澤。

港中文等推出的鳳凰……

最絕的是哈工大基于中文醫(yī)學(xué)知識(shí)的LLaMA微調(diào)模型,命名為華駝。


相關(guān)內(nèi)容