(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211024687.3
(22)申请日 2022.08.25
(71)申请人 中国联合网络通信集团有限公司
地址 100033 北京市西城区金融大街21号
(72)发明人 欧剑港 宋超杰 汪亮 张晨璐
周丽芬 陈国豪 范荣辉 李婷婷
(74)专利代理 机构 北京同立钧成知识产权代理
有限公司 1 1205
专利代理师 孙静 刘芳
(51)Int.Cl.
G06V 10/72(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06V 10/40(2022.01)G06V 10/74(2022.01)
G06V 10/77(2022.01)
G06V 10/762(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
分类图像清洗方法、 装置、 设备及存 储介质
(57)摘要
本申请提出一种分类图像清洗方法、 装置、
设备及存储介质, 其中, 所述方法包括: 基于初始
数据集的训练集训练预训练模型, 得到初始数据
模型; 对当前数据集进行清洗, 得到经过清洗后
的数据集; 基于经过清洗后的数据集训练所述预
训练模型, 得到当前数据模型; 基于所述初始数
据模型的准确率和所述当前数据模型的准确率
评估所述经过清洗后的数据集, 得到评估结果;
判断所述评估结果是否满足预设条件, 若是, 则
输出所述经过清洗后的数据集; 否则, 返回执行
对当前数据集进行清洗的步骤, 直到所述评估结
果满足所述预设条件。 本申请通过对 数据进行清
洗并利用数据模 型评估数据清洗效果, 可以达到
有效提高分类图像清洗质量的技 术效果。
权利要求书3页 说明书15页 附图6页
CN 115294364 A
2022.11.04
CN 115294364 A
1.一种分类图像清洗方法, 其特 征在于, 包括:
基于初始数据集的训练集训练预训练模型, 得到初始数据模型, 所述初始数据集的训
练集和测试集包括若干类别的图像;
对当前数据集进行清洗, 得到经过清洗后的数据集, 其中所述当前数据集在第一次循
环情况下为所述初始数据集, 在其它循环情况下为对应上一次循环得到的经过清洗后的数
据集;
基于经过清洗后的数据集训练所述预训练模型, 得到当前 数据模型;
基于所述初始数据模型的准确率和所述当前数据模型的准确率评估所述经过清洗后
的数据集, 得到 评估结果;
判断所述评估结果是否满足预设条件, 若是, 则输出所述经过清洗后的数据集; 否则,
返回执行对当前 数据集进行清洗的步骤, 直到所述评估结果满足所述预设条件。
2.根据权利要求1所述的方法, 其特征在于, 在基于初始数据集训练预训练模型之前,
还包括:
将样本数据集中图像的格式转换成相同图像 格式;
基于经过格式转换的所有图像的像素尺寸及比例对经过格式转换的所有图像进行图
像处理;
滤除格式转换失败以及图像处 理失败的图像, 得到原 始数据集;
基于留出法按照类别分层随机划分所述原 始数据集, 得到初始数据集。
3.根据权利 要求1所述的方法, 其特征在于, 所述预训练模型是基于残差网络ResNet架
构的数据模型。
4.根据权利要求1所述的方法, 其特 征在于, 对当前 数据集进行清洗, 包括:
基于当前数据模型对当前数据集进行特征提取, 得到所述当前数据集中各图像的特
征, 其中, 在所述当前 数据集为初始数据集的情况 下, 所述当前 数据模型为初始数据模型;
基于各图像的特征计算各图像之间的余弦相似度值, 并滤除所述余弦相似度值中大于
预设阈值的对应图像;
将经过相似度滤除的图像集作为经 过清洗后的数据集。
5.根据权利要求1所述的方法, 其特 征在于, 对当前 数据集进行清洗, 包括:
基于当前数据模型预测当前数据集中的异常图像, 其中, 在所述当前数据集为初始数
据集的情况 下, 所述当前 数据模型为初始数据模型;
滤除所述当前数据集中的异常图像; 以及, 将经过异常滤除的图像集作为经过清洗后
的数据集。
6.根据权利要求1所述的方法, 其特 征在于, 对当前 数据集进行清洗, 包括:
基于当前数据模型对当前数据集进行特征提取, 得到所述当前数据集中各图像的特
征, 其中, 在所述当前 数据集为初始数据集的情况 下, 所述当前 数据模型为初始数据模型;
基于各图像的特征计算各图像之间的余弦相似度值, 并滤除所述余弦相似度值中大于
预设阈值的对应图像;
基于所述当前 数据模型 预测经过相似滤除的图像中的异常图像;
滤除所述经过相似滤除的图像中的异常图像; 以及, 将经过相似滤除且经过异常滤除
的图像集作为清洗后的图像。权 利 要 求 书 1/3 页
2
CN 115294364 A
27.根据权利要求5所述的方法, 其特征在于, 所述基于当前数据模型预测所述当前数据
集中的异常图像, 包括:
基于当前 数据模型提取当前 数据集中的误识别图像和离群图像;
将所述误识别图像和所述离群图像的并集作为第一异常图像;
基于预设算法筛选出所述误识别图像 中不属于所述离群图像的若干图像, 和/或, 所述
离群图像中不属于所述 误识别图像的若干图像作为第二异常图像;
将第一异常图像和第二异常图像作为所述当前 数据集中的异常图像。
8.根据权利要求7所述的方法, 其特征在于, 所述基于当前数据模型提取当前数据集的
误识别图像和离群图像, 包括:
基于当前数据模型预测当前数据集, 得到第一分类准确率, 并提取所述第一分类准确
率下的误识别图像;
基于所述当前数据模型对所述当前数据集中所有图像进行特征抽取并进行特征降维,
得到用于聚类的图像特 征;
基于各类别的异常图像比例预估值搜索用于聚类的最大邻域距离; 以及, 基于所述图
像特征和所述 最大邻域距离获取离群图像。
9.根据权利要求8所述的方法, 其特征在于, 所述基于当前数据模型提取当前数据集的
误识别图像和离群图像, 还 包括:
从所述当前 数据集中随机抽取部分类别的图像数据;
获取所述部分类别的图像数据的异常数据比例;
基于所述第一分类准确率和所述异常数据比例进行最小二乘法拟合, 得到拟合函数,
并基于所述拟合 函数得到各类别的异常图像比例预估值。
10.根据权利要求1所述的方法, 其特征在于, 基于所述初始数据模型的准确率和所述
当前数据模型的准确率评估所述经 过清洗后的数据集, 包括:
基于所述初始数据模型 预测所述初始数据集的测试集, 得到第二分类准确率;
基于所述当前 数据模型 预测所述初始数据集的测试集, 得到第三分类准确率;
基于所述第二分类准确率和所述第三分类准确率的差值评估所述经过清洗后的数据
集。
11.一种分类图像清洗装置, 其特 征在于, 包括:
训练模块, 其设置为基于初始数据集训练预训练模型, 得到初始数据模型, 所述初始数
据集包括若干类别的图像;
清洗模块, 其设置为对当前数据集进行清洗, 得到经过清洗后的数据集, 其中所述当前
数据集在第一次循环情况下为所述初始数据集, 在其它循环情况下为对应上一次循环得到
的经过清洗后的数据集;
模型获取模块, 其设置为基于经过清洗后的数据集训练所述预训练模型, 得到当前数
据模型;
评估模块, 其设置为基于所述初始数据模型的准确率和所述当前数据模型的准确率评
估所述经 过清洗后的数据集, 得到 评估结果;
判断模块, 其设置为判断所述评估结果是否满足预设条件, 若是, 则 输出所述经过清洗
后的数据集;权 利 要 求 书 2/3 页
3
CN 115294364 A
3
专利 分类图像清洗方法、装置、设备及存储介质
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:30上传分享