基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统

基于双向长短时记忆网络的中文文本自动断句与标点生成模型构...

授权

摘要

本发明属于自然语言处理技术领域，公开一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统，该方法包括：将中文文本语料进行处理，去除无用符号，同时为每个字符添加设计好的标签；利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构；采用对数似然损失函数，通过加入长句惩罚因子对对数似然损失函数进行改进，以最小化改进后的对数似然损失函数为目标，从正反两个方向对添加标签后的中文文本语料进行训练，完成中文文本自动断句与标点生成模型构建；该系统包括：语料处理模块、网络结构选择模块及模型构建与优化模块。本发明解决了语音转写文本中，无法自动断句以及标点符号缺失的问题。

基本信息

专利标题：

基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统

专利标题（英）：

暂无

公开（公告）号：

CN111090981A

申请号：

CN201911241042.3

公开（公告）日：

2020-05-01

申请日：

2019-12-06

授权号：

CN111090981B

授权日：

2022-04-15

发明人：

屈丹杨绪魁张文林司念文陈琦牛铜闫红刚张连海李真

申请人：

中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院

申请人地址：

河南省郑州市高新区科学大道62号

代理机构：

郑州大通专利商标代理有限公司

代理人：

张立强

优先权：

CN201911241042.3

主分类号：

G06F40/191

IPC分类号：

G06F40/191 G06F40/211 G06N3/04

IPC结构图谱

G部——物理

G06

计算；推算或计数

G06F

电数字数据处理

G06F40/191

自动换行连字符

法律状态

2022-04-15 ：

授权

2020-05-29 ：

实质审查的生效

IPC(主分类) : G06F 40/191
申请日 : 20191206

2020-05-01 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载