一种OCR识别结果结构化方法、系统及存储介质
实质审查的生效
摘要
本发明公开了一种OCR识别结果结构化方法、系统及存储介质,所述方法首先用目标检测模型框出键值对,进行文本检测和识别,然后用Bert模型进行key和value的二分类,基于相对位置差对value文本进行位置排序,利用NLP对value文本进行语义排序,最后将位置排序和语义排序结果进行加权求和后从小到大排序,作为value文本识别结果;本发明通过目标检测模型识别和裁剪出键值对,解决了键值匹配错位问题,同时结合value的位置及语义综合排序,提高value合并的准确度,提高模型的泛化能力,提升OCR识别结果结构化的准确度。
基本信息
专利标题 :
一种OCR识别结果结构化方法、系统及存储介质
专利标题(英):
暂无
公开(公告)号 :
CN114359535A
申请号 :
CN202111393113.9
公开(公告)日 :
2022-04-15
申请日 :
2021-11-23
授权号 :
暂无
授权日 :
暂无
发明人 :
饶淑梅吕晓宝王元兵王海荣
申请人 :
中科曙光南京研究院有限公司
申请人地址 :
江苏省南京市江宁区诚信大道519号芳园中路
代理机构 :
南京苏高专利商标事务所(普通合伙)
代理人 :
李静
优先权 :
CN202111393113.9
主分类号 :
G06V10/22
IPC分类号 :
G06V10/22 G06V10/26 G06V30/148 G06V10/764 G06V30/19 G06K9/62 G06F16/35 G06F40/30
法律状态
2022-05-03 :
实质审查的生效
IPC(主分类) : G06V 10/22
申请日 : 20211123
申请日 : 20211123
2022-04-15 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载