用于语音识别的语言模型的训练、语音识别方法及装置
公开
摘要
本申请公开了一种用于语音识别的语言模型的训练、语音识别方法及装置,涉及人工智能及地图车联技术领域,该方法包括:对文本数据集中的语句进行领域分类处理,得到至少一个语句集;对每个语句集进行权重评估,以基于每个语句集的权重确定符合预定重要性条件的目标语句集;基于目标语句集对应的语句数目及权重进行计算处理,得到采样数目;根据采样数目及语句集的权重进行采样概率分配处理,得到每个语句集中语句的采样概率;从每个语句集中按照对应采样概率进行语句抽取,生成训练语句集;基于训练语句集对语言模型进行训练。本申请提升用于语音识别的语言模型对于数据稀疏领域的分析性能,且语言模型进行分析时不需要输入额外特征及领域信息。
基本信息
专利标题 :
用于语音识别的语言模型的训练、语音识别方法及装置
专利标题(英):
暂无
公开(公告)号 :
CN114299920A
申请号 :
CN202111021975.9
公开(公告)日 :
2022-04-08
申请日 :
2021-09-01
授权号 :
暂无
授权日 :
暂无
发明人 :
张一珂马龙
申请人 :
腾讯科技(深圳)有限公司
申请人地址 :
广东省深圳市南山区高新区科技中一路腾讯大厦35层
代理机构 :
深圳翼盛智成知识产权事务所(普通合伙)
代理人 :
李汉亮
优先权 :
CN202111021975.9
主分类号 :
G10L15/00
IPC分类号 :
G10L15/00 G10L15/02 G10L15/06 G10L15/26 G06F16/35
IPC结构图谱
G
G部——物理
G10
乐器;声学
G10L
语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G10L15/00
语音识别
法律状态
2022-04-08 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载