一种多说话人语音人声分离方法、终端设备及存储介质

实质审查的生效

摘要

本发明涉及一种多说话人语音人声分离方法、终端设备及存储介质，该方法中包括：S1：采集不同说话人的语音，提取不同说话人的语音叠加生成混合音频，将用于组成混合音频的单人音频作为模型训练的标签音频，将所有混合音频和其对应的标签音频共同组成训练集；S2：构建人声分离模型，用于将输入的混合音频分离为不同说话人对应的单人音频，通过训练集对人声分离模型进行训练，使得模型输出的分离后音频与用于组成输入的混合音频的单人音频的差值最小；S3：通过训练后的人声分离模型对包含多个说话人的音频进行分离。本发明可以实现分离重叠部分的多个说话人语音,并且模型只有一个,不需要单独训练声纹提取模型和语音聚类模型。

基本信息

专利标题：

一种多说话人语音人声分离方法、终端设备及存储介质

专利标题（英）：

暂无

公开（公告）号：

CN114333852A

申请号：

CN202210017047.3

公开（公告）日：

2022-04-12

申请日：

2022-01-07

授权号：

暂无

授权日：

暂无

发明人：

陈剑超肖龙源李稀敏叶志坚

申请人：

厦门快商通科技股份有限公司

申请人地址：

福建省厦门市软件园三期诚毅北大街63号1301单元

代理机构：

厦门市精诚新创知识产权代理有限公司

代理人：

赵薇

优先权：

CN202210017047.3

主分类号：

G10L17/04

IPC分类号：

G10L17/04 G10L21/0272

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L17/00

讲话者辨认或验证

G10L17/04

训练，登记或模型的建立

法律状态

2022-04-29 ：

实质审查的生效

IPC(主分类) : G10L 17/04
申请日 : 20220107

2022-04-12 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载