无码av一区二区三区无码,在线观看老湿视频福利,日韩经典三级片,成 人色 网 站 欧美大片在线观看

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

關(guān)于NaturalSpeech模型的論文解讀以及復(fù)現(xiàn)嘗試(序)

2023-02-28 18:20 作者:ai筆記菌  | 我要投稿

????????NaturalSpeech是微微軟亞洲研究院和微軟 Azure 語(yǔ)音團(tuán)隊(duì)推出的關(guān)于文本生成語(yǔ)音?Text to speech (TTS)的AI合成語(yǔ)音模型。據(jù)說(shuō)在 CMOS 測(cè)試中首次達(dá)到了真人說(shuō)話水準(zhǔn)。

????????這篇文章是UP嘗試復(fù)現(xiàn)論文是所記錄的筆記,希望能夠幫助其他對(duì)TTS感興趣的同學(xué),如果有錯(cuò)誤或不足之處。希望能有大佬在評(píng)論區(qū)指正。閑話就不往下說(shuō)了,開(kāi)始讀論文。

????????跳過(guò)論文中的介紹和其他的一些無(wú)關(guān)內(nèi)容。重點(diǎn)在于模型圖

圖1:NaturalSpeech 系統(tǒng)概覽

看似簡(jiǎn)單,實(shí)際上相當(dāng)復(fù)雜。將它與VITS比較,可以看出,兩者都用了條件變分自編碼器(Variational AutoEncoder,VAE),將高維語(yǔ)音 x 壓縮為幀級(jí)表示 z/ q(z|x))。


圖2:vits 系統(tǒng)概覽

VAE之后,NaturalSpeech接了一個(gè)雙向的先驗(yàn)/后驗(yàn)的flow(沒(méi)錯(cuò)它也用了flow),所以除了一些細(xì)節(jié)上的不同,NaturalSpeech和Vits的框架大差不差,都是VAE+Flow+GAN的模式,而VITS是開(kāi)源的,這就降低了復(fù)現(xiàn)NaturalSpeech的難度。

關(guān)于NaturalSpeech模型的論文解讀以及復(fù)現(xiàn)嘗試(序)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
巨鹿县| 双桥区| 鹤壁市| 天水市| 通江县| 铁岭市| 汤阴县| 肃北| 金溪县| 吴桥县| 麦盖提县| 临湘市| 海宁市| 镇平县| 定南县| 永春县| 枣庄市| 自贡市| 来宾市| 宁陕县| 郧西县| 霍林郭勒市| 石家庄市| 瑞丽市| 福清市| 延庆县| 双流县| 宝鸡市| 瓦房店市| 奈曼旗| 南汇区| 余庆县| 清丰县| 文水县| 枝江市| 康定县| 白水县| 滦平县| 浦城县| 贵港市| 昆明市|