国产一级久久久久久毛片,麻豆va一区二区三区久久浪

兩大可商用開源大模型同時(shí)發(fā)布！性能不輸LLaMA，羊駝家族名字都不夠用了

量子位

2023-05-07 16:53:14

從Meta的LLaMA發(fā)展出的羊駝家族一系列大模型，已成為開源AI重要力量。

但LLamA開源了又沒全開，只能用于研究用途，還得填申請表格等，也一直被業(yè)界詬病。

好消息是，兩大對標(biāo)LLaMA的完全開源項(xiàng)目同時(shí)有了新進(jìn)展。

可商用開源大模型來了，還一下來了倆：

MosaicML推出MPT系列模型，其中70億參數(shù)版在性能測試中與LLaMA打個(gè)平手。

Together的RedPajama（紅睡衣）系列模型，30億參數(shù)版在RTX2070游戲顯卡上就能跑。

對于這些進(jìn)展，特斯拉前AI主管Andrej Karpathy認(rèn)為，開源大模型生態(tài)有了寒武紀(jì)大爆發(fā)的早期跡象。

MPT，與LLaMA五五開

MPT系列模型，全稱MosaicML Pretrained Transformer，基礎(chǔ)版本為70億參數(shù)。

MPT在大量數(shù)據(jù)（1T tokens）上訓(xùn)練，與LLaMA相當(dāng)，高于StableLM，Pythia等其他開源模型。

支持84k tokens超長輸入，并用FlashAttention和FasterTransformer方法針對訓(xùn)練和推理速度做過優(yōu)化。

在各類性能評估中，與原版LLaMA不相上下。

除了MPT-7B Base基礎(chǔ)模型外還有三個(gè)變體。

MPT-7B-Instruct，用于遵循簡短指令。

MPT-7B-Chat，用于多輪聊天對話。

MPT-7B-StoryWriter-65k+，用于閱讀和編寫故事，支持65k tokens的超長上下文，用小說數(shù)據(jù)集微調(diào)。

MosaicML由前英特爾AI芯片項(xiàng)目Nervana負(fù)責(zé)人Naveen Rao創(chuàng)辦。

該公司致力于降低訓(xùn)練神經(jīng)網(wǎng)絡(luò)的成本，推出的文本和圖像生成推理服務(wù)成本只有OpenAI的1/15。

RedPajama，2070就能跑

RedPajama系列模型，在5TB的同名開源數(shù)據(jù)上訓(xùn)練而來（前面提到的MPT也是用此數(shù)據(jù)集訓(xùn)練）。

除70億參數(shù)基礎(chǔ)模型外，還有一個(gè)30億參數(shù)版本，可以在5年前發(fā)售的RTX2070游戲顯卡上運(yùn)行。

目前70億版本完成了80%的訓(xùn)練，效果已經(jīng)超過了同規(guī)模的Pythia等開源模型，略遜于LLamA。

預(yù)計(jì)在完成1T tokens的訓(xùn)練后還能繼續(xù)改進(jìn)。

背后公司Together，由蘋果前高管Vipul Ved Prakash，斯坦福大模型研究中心主任Percy Liang，蘇黎世聯(lián)邦理工大學(xué)助理教授張策等人聯(lián)合創(chuàng)辦。

開源模型發(fā)布后，他們的近期目標(biāo)是繼續(xù)擴(kuò)展開源RedPajama數(shù)據(jù)集到兩倍規(guī)模。

One More Thing

來自南美洲的無峰駝?lì)悇游镆还?種，已被各家大模型用完了。

Meta發(fā)布LLaMA之后，斯坦福用了Alpaca，伯克利等單位用了Alpaca，Joseph Cheung等開發(fā)者團(tuán)隊(duì)用了Guanaco。

以至于后來者已經(jīng)卷到了其他相近動物，比如IBM的單峰駱駝Dromedary，Databricks的Dolly來自克隆羊多莉。

國人研究團(tuán)隊(duì)也熱衷于用古代傳說中的神獸，如UCSD聯(lián)合中山大學(xué)等推出的白澤。

港中文等推出的鳳凰……

最絕的是哈工大基于中文醫(yī)學(xué)知識的LLaMA微調(diào)模型，命名為華駝。

香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放