亚色成人,久久噜噜噜久久亚洲va久

中國首個音頻生成類大模型通過備案

鳳凰網(wǎng)科技

2024-09-20 17:11:05

鳳凰網(wǎng)科技訊 9月20日，近日，上海網(wǎng)信辦發(fā)布的最新一批上海市生成式大模型備案通過名單中，喜馬拉雅音頻大模型與米哈游、閱文集團的筑夢島等文本大模型共同通過了備案，成為全國首個通過網(wǎng)信辦生成式人工智能服務(wù)的音頻生成類大模型。

喜馬拉雅音頻大模型是全球首個第四代多情感演繹、超自然表達(dá)的音頻生成大模型。該模型將會引領(lǐng)整個音頻行業(yè)AIGC從第三代音頻生成模型向第四代音頻生成大模型的演化發(fā)展。

中國首個音頻生成類大模型通過備案

喜馬拉雅音頻模型是珠峰AI團隊基于自研文本音頻聯(lián)合建模的LLM框架，在同一空間向量表征下實現(xiàn)音頻與文本的聯(lián)合建模訓(xùn)練。這種聯(lián)合建模的方法充分賦予了音頻生成任務(wù)以強大的語義信息，并充分利用它們之間的內(nèi)在聯(lián)系和互補信息，大幅度提高模型的性能和泛化能力，這也是第四代音頻大模型超越上一代的核心技術(shù)突破。

中國首個音頻生成類大模型通過備案

在訓(xùn)練過程中，喜馬拉雅珠峰AI首先將音頻數(shù)據(jù)和文本數(shù)據(jù)分別進(jìn)行預(yù)處理，將它們轉(zhuǎn)化為適合模型輸入的 token 形式，并將音頻 token 和文本 token 映射到同一空間向量表征中，使得模型能夠更好地理解和處理音頻和文本之間的關(guān)系。整體訓(xùn)練流程包括預(yù)訓(xùn)練（Pretraining）、有監(jiān)督微調(diào)（SFT）、領(lǐng)域有監(jiān)督微調(diào)（Domain SFT）、說話人有監(jiān)督微調(diào)（Speaker SFT）、強化學(xué)習(xí)（RL）幾個主要流程。通過這幾個流程的訓(xùn)練，使模型具備以下特點：（1）15s音色克隆能力和聲音轉(zhuǎn)換能力。（2）超擬人、多情感、對齊人類偏好的語音生成。（3）高可控風(fēng)格和副語言能力。

喜馬拉雅珠峰AI研發(fā)團隊對訓(xùn)練好的模型進(jìn)行評估，在長音頻內(nèi)容如有聲小說的場景下，角色演繹風(fēng)格的可控性、音素表現(xiàn)的穩(wěn)定性、語流韻律停頓等的自然度上顯著高于國內(nèi)外第三代音頻生成模型。

喜馬拉雅音頻大模型踐行“產(chǎn)模結(jié)合”的范式，通過模型結(jié)合產(chǎn)業(yè)形成業(yè)務(wù)、數(shù)據(jù)、算法的正反饋循環(huán)。其在AIGC有聲書、Chat對話式交互等業(yè)務(wù)場景上廣泛使用，諸如最近爆火的有聲書《我的阿勒泰》就是由喜馬拉雅音頻大模型生成的。喜馬拉雅珠峰AI表示，音頻大模型能力已經(jīng)在珠峰AI官網(wǎng)上可以直接體驗使用了，用戶可以直接創(chuàng)作自己的音頻內(nèi)容。

上一篇：如何破解美國AI芯片制裁？華為輪值董事長徐直軍給出解決方案

下一篇：馬斯克透露火星計劃：未來兩年發(fā)射五艘無人星艦

香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放