基于数据清洗和数据生成的数据集构建方法及装置
实质审查的生效
摘要
本发明公开了基于数据清洗和数据生成的数据集构建方法及装置,方法包括:获取初始数据集中所有图像的标注文件,构建第一训练集和第一测试集;训练得到第一深度检测模型;根据所述第一深度检测模型对所述第一测试集的检测结果,将所述第一测试集中包含错误标注的图像筛选出来,得到包含错误标注的图像的E集,将所述E集作为第二测试集;构建第二训练集;训练得到第二深度检测模型;获取第二深度检测模型的检测结果,作为E集的新标注;对检测结果进行人工检查以及进一步修正,得到新的标注文件,完成数据集清洗;对新的标注文件对应的图像进行几何拉伸变换,得到新的图像文件。本发明提高了准确性和效率,可广泛应用于数据处理技术领域。
基本信息
专利标题 :
基于数据清洗和数据生成的数据集构建方法及装置
专利标题(英):
暂无
公开(公告)号 :
CN114419397A
申请号 :
CN202210065170.2
公开(公告)日 :
2022-04-29
申请日 :
2022-01-20
授权号 :
暂无
授权日 :
暂无
发明人 :
林柏洪池瀚星
申请人 :
中山大学·深圳;中山大学
申请人地址 :
广东省深圳市光明新区光明街道华夏路和润家园3栋501
代理机构 :
广州嘉权专利商标事务所有限公司
代理人 :
梁嘉琦
优先权 :
CN202210065170.2
主分类号 :
G06V10/774
IPC分类号 :
G06V10/774 G06V10/82 G06K9/62 G06N3/04 G06N3/08
法律状态
2022-05-20 :
实质审查的生效
IPC(主分类) : G06V 10/774
申请日 : 20220120
申请日 : 20220120
2022-04-29 :
公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
文件下载
暂无PDF文件可下载