基于概率扩散模型的声学模型后处理方法、服务器及可读存储器

实质审查的生效

摘要

本发明公开了一种基于概率扩散模型的声学模型后处理方法、服务器及可读存储器，该方法包括：模型训练，利用服务器对概率扩散模型进行训练，通过降低损失函数优化概率扩散模型的参数，直至模型收敛，获得概率扩散模型的权重；模型推断，根据训练阶段获得的模型权重，利用服务器对输入的预测频谱实现频谱优化。该方法通过学习输入的预测频谱和真实频谱之间的特征相似性，使用模型中噪声估计网络的数据拟合能力，实现基于扩散的概率分布转移，最终使输入的预测频谱更加近似于真实频谱。通过频谱质量的提高实现对合成语音自然度的提升。该方法针对各种声学模型得到的频谱都可以起到频谱细节优化的作用，与其他方法相比，取得了更优的频谱生成效果。

基本信息

专利标题：

基于概率扩散模型的声学模型后处理方法、服务器及可读存储器

专利标题（英）：

暂无

公开（公告）号：

CN114512114A

申请号：

CN202111652872.2

公开（公告）日：

2022-05-17

申请日：

2021-12-30

授权号：

暂无

授权日：

暂无

发明人：

张晨张宗煜陈积明史治国

申请人：

浙江大学

申请人地址：

浙江省杭州市西湖区余杭塘路866号

代理机构：

杭州求是专利事务所有限公司

代理人：

刘静

优先权：

CN202111652872.2

主分类号：

G10L13/10

IPC分类号：

G10L13/10 G10L25/18 G10L25/27

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L13/00

语音合成；文本-语音合成系统

G10L13/08

文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定

G10L13/10

来自文本的韵律规则；重音或声调

法律状态

2022-06-03 ：

实质审查的生效

IPC(主分类) : G10L 13/10
申请日 : 20211230

2022-05-17 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载