一种基于拼音的同音字变体处理方法
实质审查的生效
摘要
本发明公开了一种基于拼音的同音字变体处理方法,包括步骤:S1:使用拼音生成工具,生成正常文本序列对应的拼音序列;S2:将正常文本的拼音序列作为输入,正常文本序列作为输出,训练拼音转汉字模型;S3:使用拼音生成工具,生成带有同音字变体文本序列对应的拼音序列;S4:将生成的带有同音变体文本的拼音序列作为S2中拼音转汉字模型的输入,得到的输出即正常文本序列。现有变体处理方法无法很好地处理同音字变体,本发明中基于拼音还原了同音字变体对应的文本,最终进一步提高了不良文本识别的准确率。
基本信息
专利标题 :
一种基于拼音的同音字变体处理方法
专利标题(英):
暂无
公开(公告)号 :
CN114357984A
申请号 :
CN202111414363.6
公开(公告)日 :
2022-04-15
申请日 :
2021-11-25
授权号 :
暂无
授权日 :
暂无
发明人 :
姚金良胡创
申请人 :
杭州电子科技大学
申请人地址 :
浙江省杭州市下沙高教园区
代理机构 :
杭州君度专利代理事务所(特殊普通合伙)
代理人 :
杨舟涛
优先权 :
CN202111414363.6
主分类号 :
G06F40/247
IPC分类号 :
G06F40/247 G06K9/62
IPC结构图谱
G
G部——物理
G06
计算;推算或计数
G06F
电数字数据处理
G06F40/247
辞典;同义词
法律状态
2022-05-03 :
实质审查的生效
IPC(主分类) : G06F 40/247
申请日 : 20211125
申请日 : 20211125
2022-04-15 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载