用于语音识别的语言模型的训练、语音识别方法及装置

公开

摘要

本申请公开了一种用于语音识别的语言模型的训练、语音识别方法及装置，涉及人工智能及地图车联技术领域，该方法包括：对文本数据集中的语句进行领域分类处理，得到至少一个语句集；对每个语句集进行权重评估，以基于每个语句集的权重确定符合预定重要性条件的目标语句集；基于目标语句集对应的语句数目及权重进行计算处理，得到采样数目；根据采样数目及语句集的权重进行采样概率分配处理，得到每个语句集中语句的采样概率；从每个语句集中按照对应采样概率进行语句抽取，生成训练语句集；基于训练语句集对语言模型进行训练。本申请提升用于语音识别的语言模型对于数据稀疏领域的分析性能，且语言模型进行分析时不需要输入额外特征及领域信息。

基本信息

专利标题：

用于语音识别的语言模型的训练、语音识别方法及装置

专利标题（英）：

暂无

公开（公告）号：

CN114299920A

申请号：

CN202111021975.9

公开（公告）日：

2022-04-08

申请日：

2021-09-01

授权号：

暂无

授权日：

暂无

发明人：

张一珂马龙

申请人：

腾讯科技（深圳）有限公司

申请人地址：

广东省深圳市南山区高新区科技中一路腾讯大厦35层

代理机构：

深圳翼盛智成知识产权事务所(普通合伙)

代理人：

李汉亮

优先权：

CN202111021975.9

主分类号：

G10L15/00

IPC分类号：

G10L15/00 G10L15/02 G10L15/06 G10L15/26 G06F16/35

IPC结构图谱

G部——物理

G10

乐器；声学

G10L

语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码

G10L15/00

语音识别

法律状态

2022-04-08 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载